TEXTO A VOZ

Conversión de texto a voz de nivel de producción para todos los dispositivos e idiomas

La familia de modelos MARS8 de CAMB.AI ofrece una síntesis de voz natural y expresiva en más de 150 idiomas, con modelos especializados para la conversación en tiempo real, la producción de contenido y la implementación en el dispositivo.

POR QUÉ CAMB.AI

¿Qué hace que la conversión de texto a voz de CAMB.AI sea diferente?

La conversión de texto a voz de CAMB.AI convierte el texto escrito en voz natural con sonido humano en más de 150 idiomas, lo que abarca al 99% de la población hablante del mundo. MARS8 es la primera familia de modelos TTS de producción con modelos diseñados específicamente para distintos casos de uso. Cada modelo está optimizado para lograr un equilibrio específico entre los requisitos de latencia, fidelidad e implementación. MARS-Pro logra una similitud de 0.87 altavoces WAVlm y 0.71 de similitud entre altavoces CAM, lo que representa una mejora del 38% con respecto a su competidor más cercano, según el punto de referencia MAMBA, el marco de evaluación de código abierto de CAMB.AI para modelos TTS.

Capacidades clave

Capacidades clave de conversión de texto a voz

P: si es necesario
Discurso natural en más de 150 idiomas
Los idiomas de primer nivel (inglés, hindi, francés, español, alemán, japonés, árabe, coreano, chino, italiano, portugués, indonesio y holandés) se capacitan con más de 10 000 horas de datos.
Clonación de voz
Clona la voz de cualquier hablante a partir de una muestra de referencia breve y reprodúcela en varios idiomas. MarsPro ofrece una similitud de altavoz de 0,87 WAVlm.
Control de emociones y prosodia
Mars-instruct (parámetros 1.2 B) proporciona controles emocionales a nivel de director para una entrega emocional, un ritmo y un énfasis precisos.
Despliegue en el dispositivo
Mars-nano se puede implementar en 12 mil millones de dispositivos, incluidos teléfonos inteligentes, sistemas automotrices, auriculares y hardware de IoT. No se requiere internet.
CAPACIDADES
INDUSTRIAS

¿Para quién está diseñada la conversión de texto a voz?

P: si es necesario
Empresas de tecnología y desarrolladores de plataformas
Equipos de ingeniería que crean aplicaciones con capacidad de voz, interfaces conversacionales y experiencias de usuario multilingües.
GATO →
OEM y fabricantes de dispositivos
Empresas de hardware que incorporan la voz en teléfonos inteligentes, sistemas automotrices, auriculares, dispositivos domésticos inteligentes y dispositivos portátiles.
GATO →
Organizaciones empresariales
Empresas globales que necesitan voz multilingüe para el contenido de formación, los sistemas IVR y los flujos de trabajo de soporte orientados al cliente.
GATO →
CASOS DE USO

Conversión de texto a voz en acción

p: si es necesario
Sistemas de voz automotrices
Incorpora indicaciones de navegación y asistentes en el automóvil con el TTS integrado en el dispositivo de MarsNano, sin necesidad de conectividad celular.
5x
Nombre de métrica
2x
Nombre de métrica
Narración de contenido y voz en off
Genere voces en off multilingües para demostraciones de productos, materiales de formación y contenido de marketing mediante la clonación de voz de MarsPro.
5x
Nombre de métrica
2x
Nombre de métrica
Automatización de IVR y telecomunicaciones
Sustituya las grabaciones estáticas por un TTS dinámico y multilingüe. Amplíe su negocio a nuevos mercados añadiendo idiomas sin necesidad de volver a grabar.
5x
Nombre de métrica
2x
Nombre de métrica
IoT y dispositivos portátiles
Agregue salida de voz a hardware con recursos limitados mediante el modelo de 50 millones de parámetros de MARS-Nano.
5x
Nombre de métrica
2x
Nombre de métrica
Agentes de voz e IA conversacionales
Potencie los bots de servicio al cliente y los asistentes de voz con el TTFB de 100 ms de MarsFlash en más de 150 idiomas.
5x
Nombre de métrica
2x
Nombre de métrica
CÓMO FUNCIONA

Del texto al discurso en cuatro pasos

PASO 1
Elige tu modelo
MARS-Flash para tiempo real (TTFB de 100 ms). MARS-Pro para contenido apto para producción (0.87 de similitud de altavoces). MARS-Instruct para una salida controlada por emociones. MARS-Nano para dispositivos integrados (50 ms TTFB, 50 M parámetros).
PASO 2
Integración mediante API
Conéctese a la API TTS de CAMB.AI, introduzca texto, seleccione un idioma de destino (más de 150 disponibles) y, si lo desea, proporcione un ejemplo de referencia de voz para la clonación.
PASO 3
Configurar voz e idioma
Selecciona de la biblioteca de voces o clona una voz personalizada a partir de un breve ejemplo de referencia. Usa diccionarios para controlar la pronunciación de términos específicos de una marca.
PASO 4
Implemente y escale
Implemente el TTS basado en la nube a través de una API para aplicaciones web y de servidor, o empaquete MARS-Nano para la integración en el dispositivo. Amplíe en varios idiomas sin tener que volver a grabar.
preguntas frecuentes

Preguntas frecuentes

¿Cuál es la diferencia entre los modelos MARS8?
MARS-Flash (600 millones de parámetros, 100 ms TTFB) para IA conversacional en tiempo real. MARS-Pro (600 millones de parámetros, TTFB de 800 ms a 2 segundos) para la producción de contenido. MARS-Instruct (1,2 millones de parámetros) para controles emocionales a nivel de director. MARS-Nano (50 millones de parámetros, 50 ms de TTFB) para la implementación en dispositivos en 12 mil millones de dispositivos.
¿Puedo clonar una voz específica?
Sí. Proporcione una breve muestra de audio de referencia y reproduzca la identidad del hablante en todos los idiomas. MARS-Pro logra una similitud de altavoz de 0.87 WAVlm.
¿Puede ejecutarse TTS sin conexión a Internet?
Sí. MARS-Nano funciona de forma nativa en teléfonos inteligentes, sistemas automotrices, auriculares, dispositivos portátiles y dispositivos de IoT sin depender de Internet.
¿Cómo se comporta CAMB.AI TTS frente a la competencia?
MARS-Pro logra una similitud de altavoz WAVLM de 0,87 y una similitud de CAM de 0,71, una mejora del 38% con respecto al competidor más cercano según el punto de referencia MAMBA.
¿Hay una API disponible?
Sí. Las API para desarrolladores están disponibles, con claves generadas en DubStudio.
¿Puedo controlar la emoción del discurso generado?
Sí. MARS-Instruct proporciona controles a nivel de director para la transmisión, el ritmo y el énfasis emocionales.