TEXTO A VOZ

Conversión de texto a voz de nivel de producción para todos los dispositivos e idiomas

Q: ¿Cuál es la diferencia entre los modelos MARS8?

MarsFlash (600 millones de parámetros, 100 ms TTFB) para IA conversacional en tiempo real. MarsPro (600 millones de parámetros, TTFB de 800 ms a 2 segundos) para la producción de contenido. MarsInstruct (1,2 millones de parámetros) para controles emocionales a nivel de director. MarsNano (50 millones de parámetros, 50 ms de TTFB) para la implementación en dispositivos en 12 mil millones de dispositivos.

Q: ¿Puede ejecutarse TTS sin conexión a Internet?

Sí. MarsNano funciona de forma nativa en teléfonos inteligentes, sistemas automotrices, auriculares, dispositivos portátiles y dispositivos de IoT sin depender de Internet.

Q: ¿Cómo se comporta CAMB.AI TTS frente a la competencia?

MarsPro logra una similitud de altavoz WAVLM de 0,87 y una similitud de CAM de 0,71, una mejora del 38% con respecto al competidor más cercano según el punto de referencia MAMBA.

Q: ¿Puedo controlar la emoción del discurso generado?

Sí. MarsInstruct proporciona controles a nivel de director para la transmisión, el ritmo y el énfasis emocionales.

La familia de modelos MARS8 de CAMB.AI ofrece una síntesis de voz natural y expresiva en más de 150 idiomas, con modelos especializados para la conversación en tiempo real, la producción de contenido y la implementación en el dispositivo.

Obtenga acceso a la API

CAMB.AI text-to-speech supports languages including English, Spanish, Hindi, French, Arabic, Mandarin, Japanese, German, Portuguese, Italian, Korean, Dutch, Turkish and 140+ more.

The demo includes multilingual AI voices for text-to-speech generation, including male, female and neutral voice options across supported languages.

Language Voice

Input Text

0 / 500

POR QUÉ CAMB.AI

¿Qué hace que la conversión de texto a voz de CAMB.AI sea diferente?

La conversión de texto a voz de CAMB.AI convierte el texto escrito en voz natural con sonido humano en más de 150 idiomas, lo que abarca al 99% de la población hablante del mundo. MARS8 es la primera familia de modelos TTS de producción con modelos diseñados específicamente para distintos casos de uso. Cada modelo está optimizado para lograr un equilibrio específico entre los requisitos de latencia, fidelidad e implementación. MARS-Pro logra una similitud de 0.87 altavoces WAVlm y 0.71 de similitud entre altavoces CAM, lo que representa una mejora del 38% con respecto a su competidor más cercano, según el punto de referencia MAMBA, el marco de evaluación de código abierto de CAMB.AI para modelos TTS.

Capacidades clave

Capacidades clave de conversión de texto a voz

Discurso natural en más de 150 idiomas

Los idiomas de primer nivel (inglés, hindi, francés, español, alemán, japonés, árabe, coreano, chino, italiano, portugués, indonesio y holandés) se capacitan con más de 10 000 horas de datos.

Clonación de voz

Clona la voz de cualquier hablante a partir de una muestra de referencia breve y reprodúcela en varios idiomas. MarsPro ofrece una similitud de altavoz de 0,87 WAVlm.

Control de emociones y prosodia

Mars-instruct (parámetros 1.2 B) proporciona controles emocionales a nivel de director para una entrega emocional, un ritmo y un énfasis precisos.

Despliegue en el dispositivo

Mars-nano se puede implementar en 12 mil millones de dispositivos, incluidos teléfonos inteligentes, sistemas automotrices, auriculares y hardware de IoT. No se requiere internet.

CAPACIDADES

INDUSTRIAS

¿Para quién está diseñada la conversión de texto a voz?

Empresas de tecnología y desarrolladores de plataformas

Equipos de ingeniería que crean aplicaciones con capacidad de voz, interfaces conversacionales y experiencias de usuario multilingües.

GATO →

OEM y fabricantes de dispositivos

Empresas de hardware que incorporan la voz en teléfonos inteligentes, sistemas automotrices, auriculares, dispositivos domésticos inteligentes y dispositivos portátiles.

GATO →

Organizaciones empresariales

Empresas globales que necesitan voz multilingüe para el contenido de formación, los sistemas IVR y los flujos de trabajo de soporte orientados al cliente.

GATO →

CASOS DE USO

Conversión de texto a voz en acción

Sistemas de voz automotrices

Incorpora indicaciones de navegación y asistentes en el automóvil con el TTS integrado en el dispositivo de MarsNano, sin necesidad de conectividad celular.

GATO

Narración de contenido y voz en off

Genere voces en off multilingües para demostraciones de productos, materiales de formación y contenido de marketing mediante la clonación de voz de MarsPro.

GATO

Automatización de IVR y telecomunicaciones

Sustituya las grabaciones estáticas por un TTS dinámico y multilingüe. Amplíe su negocio a nuevos mercados añadiendo idiomas sin necesidad de volver a grabar.

GATO

IoT y dispositivos portátiles

Agregue salida de voz a hardware con recursos limitados mediante el modelo de 50 millones de parámetros de MARS-Nano.

GATO

Agentes de voz e IA conversacionales

Potencie los bots de servicio al cliente y los asistentes de voz con el TTFB de 100 ms de MarsFlash en más de 150 idiomas.

GATO

CÓMO FUNCIONA

Del texto al discurso en cuatro pasos

PASO 1

Elige tu modelo

MARS-Flash para tiempo real (TTFB de 100 ms). MARS-Pro para contenido apto para producción (0.87 de similitud de altavoces). MARS-Instruct para una salida controlada por emociones. MARS-Nano para dispositivos integrados (50 ms TTFB, 50 M parámetros).

PASO 2

Integración mediante API

Conéctese a la API TTS de CAMB.AI, introduzca texto, seleccione un idioma de destino (más de 150 disponibles) y, si lo desea, proporcione un ejemplo de referencia de voz para la clonación.

PASO 3

Configurar voz e idioma

Selecciona de la biblioteca de voces o clona una voz personalizada a partir de un breve ejemplo de referencia. Usa diccionarios para controlar la pronunciación de términos específicos de una marca.

PASO 4

Implemente y escale

Implemente el TTS basado en la nube a través de una API para aplicaciones web y de servidor, o empaquete MARS-Nano para la integración en el dispositivo. Amplíe en varios idiomas sin tener que volver a grabar.

preguntas frecuentes

Preguntas frecuentes

¿Cuál es la diferencia entre los modelos MARS8?

MARS-Flash (600 millones de parámetros, 100 ms TTFB) para IA conversacional en tiempo real. MARS-Pro (600 millones de parámetros, TTFB de 800 ms a 2 segundos) para la producción de contenido. MARS-Instruct (1,2 millones de parámetros) para controles emocionales a nivel de director. MARS-Nano (50 millones de parámetros, 50 ms de TTFB) para la implementación en dispositivos en 12 mil millones de dispositivos.

¿Puedo clonar una voz específica?

Sí. Proporcione una breve muestra de audio de referencia y reproduzca la identidad del hablante en todos los idiomas. MARS-Pro logra una similitud de altavoz de 0.87 WAVlm.

¿Puede ejecutarse TTS sin conexión a Internet?

Sí. MARS-Nano funciona de forma nativa en teléfonos inteligentes, sistemas automotrices, auriculares, dispositivos portátiles y dispositivos de IoT sin depender de Internet.

¿Cómo se comporta CAMB.AI TTS frente a la competencia?

MARS-Pro logra una similitud de altavoz WAVLM de 0,87 y una similitud de CAM de 0,71, una mejora del 38% con respecto al competidor más cercano según el punto de referencia MAMBA.

¿Hay una API disponible?

Sí. Las API para desarrolladores están disponibles, con claves generadas en DubStudio.

¿Puedo controlar la emoción del discurso generado?

Sí. MARS-Instruct proporciona controles a nivel de director para la transmisión, el ritmo y el énfasis emocionales.