SYNTHÈSE VOCALE

Synthèse vocale de qualité professionnelle pour tous les appareils et toutes les langues

La famille de modèles MARS8 de CAMB.AI fournit une synthèse vocale naturelle et expressive dans plus de 150 langues, avec des modèles spécialisés pour les conversations en temps réel, la production de contenu et le déploiement sur appareil.

POURQUOI CAMB.AI

Qu'est-ce qui différencie la synthèse vocale de CAMB.AI ?

La synthèse vocale de CAMB.AI convertit le texte écrit en un discours naturel à consonance humaine dans plus de 150 langues, couvrant 99 % de la population parlant le monde. MARS8 est la première famille de modèles TTS de production avec des modèles spécialement conçus pour des cas d'utilisation distincts. Chaque modèle est optimisé pour un équilibre spécifique entre les exigences de latence, de fidélité et de déploiement. MARS-Pro atteint une similitude de haut-parleur de 0,87 WavLM et une similitude CAM de 0,71 %, soit une amélioration de 38 % par rapport à son concurrent le plus proche, selon le benchmark MAMBA, le cadre d'évaluation open source de CAMB.AI pour les modèles TTS.

Capacités clés

Principales fonctionnalités de synthèse vocale

P : si nécessaire
Discours naturel dans plus de 150 langues
Les langues de premier plan (anglais, hindi, français, espagnol, allemand, japonais, arabe, coréen, chinois, italien, portugais, indonésien, néerlandais) sont entraînées sur plus de 10 000 heures de données.
Clonage vocal
Clonez la voix de n'importe quel locuteur à partir d'un court échantillon de référence et reproduisez-le dans toutes les langues. MarsPro offre une similitude de haut-parleur de 0,87 WavLM.
Contrôle des émotions et de la prosodie
Mars-Instrut (paramètres 1.2B) fournit des commandes émotionnelles au niveau du réalisateur pour une diffusion, un rythme et une accentuation précis des émotions.
Déploiement sur l'appareil
Mars-nano est déployable sur 12 milliards d'appareils, notamment des smartphones, des systèmes automobiles, des écouteurs et du matériel IoT. Aucune connexion Internet n'est requise.
CAPACITÉS
INDUSTRIES

À qui est destinée la synthèse vocale ?

P : si nécessaire
Entreprises technologiques et développeurs de plateformes
Les équipes d'ingénierie créent des applications vocales, des interfaces conversationnelles et des expériences utilisateur multilingues.
CHAT →
OEM et fabricants d'appareils
Les fabricants de matériel informatique intègrent la voix dans les smartphones, les systèmes automobiles, les écouteurs, les appareils domestiques intelligents et les appareils portables.
CHAT →
Organisations d'entreprises
Les entreprises internationales ont besoin d'une voix multilingue pour le contenu de formation, les systèmes IVR et les flux de travail d'assistance orientés client.
CHAT →
CAS D'UTILISATION

La synthèse vocale en action

p : si nécessaire
Systèmes vocaux automobiles
Intégrez des instructions de navigation et des assistants embarqués au système TTS intégré de MarsNano, sans aucune connectivité cellulaire.
5x
Nom de la métrique
2 fois
Nom de la métrique
Narration du contenu et voix off
Générez des voix off multilingues pour les démonstrations de produits, les supports de formation et le contenu marketing à l'aide du clonage vocal de MarsPro.
5x
Nom de la métrique
2 fois
Nom de la métrique
IVR et automatisation des télécommunications
Remplacez les enregistrements statiques par des TTS dynamiques et multilingues. Évoluez vers de nouveaux marchés en ajoutant des langues sans avoir à les réenregistrer.
5x
Nom de la métrique
2 fois
Nom de la métrique
IoT et appareils portables
Ajoutez une sortie vocale à un matériel aux ressources limitées à l'aide du modèle à 50 m de paramètres de MARS-nano.
5x
Nom de la métrique
2 fois
Nom de la métrique
IA conversationnelle et agents vocaux
Optimisez les robots du service client et les assistants vocaux avec le TTFB de 100 ms de MarsFlash dans plus de 150 langues.
5x
Nom de la métrique
2 fois
Nom de la métrique
COMMENT ÇA MARCHE

Du texte à la parole en quatre étapes

ÉTAPE 1
Choisissez votre modèle
Mars-Flash pour le temps réel (100 ms TTFB). Mars-Pro pour un contenu de qualité professionnelle (similarité des haut-parleurs de 0,87). Mars-instruct pour une sortie contrôlée par les émotions. Mars-nano pour l'appareil (50 ms TTFB, 50 ms de paramètres).
ÉTAPE 2
Intégrez via une API
Connectez-vous à l'API TTS de CAMB.AI, transmettez du texte, sélectionnez une langue cible (plus de 150 disponibles) et fournissez éventuellement un échantillon de référence vocale pour le clonage.
ÉTAPE 3
Configuration de la voix et de la langue
Faites votre choix dans la bibliothèque vocale ou clonez une voix personnalisée à partir d'un court échantillon de référence. Utilisez les dictionnaires pour contrôler la prononciation des termes spécifiques à une marque.
ÉTAPE 4
Déploiement et évolutivité
Déployez le TTS basé sur le cloud via une API pour les applications Web et serveur, ou regroupez MARS-nano pour une intégration sur l'appareil. Passez d'une langue à l'autre sans réenregistrement.
faq

Questions fréquemment posées

Quelle est la différence entre les modèles MARS8 ?
Mars-Flash (600 millions de paramètres, 100 ms TTFB) pour une IA conversationnelle en temps réel. Mars-Pro (600 M de paramètres, TTFB de 800 ms à 2 s) pour la production de contenu. Mars-Instrut (1,2 B paramètres) pour les contrôles des émotions au niveau du réalisateur. MARS-nano (50 M de paramètres, 50 ms TTFB) pour un déploiement sur appareil sur 12 milliards d'appareils.
Puis-je cloner une voix spécifique ?
Oui Fournissez un court échantillon audio de référence et reproduisez l'identité du locuteur dans toutes les langues. MARS-Pro atteint une similitude de haut-parleur de 0,87 WavLM.
Le TTS peut-il fonctionner hors ligne ?
Oui Mars-nano fonctionne en mode natif sur les smartphones, les systèmes automobiles, les écouteurs, les appareils portables et les appareils IoT sans aucune dépendance à Internet.
Quelles sont les performances de CAMB.AI TTS par rapport à ses concurrents ?
MARS-Pro atteint une similitude de haut-parleur de 0,87 WavLM et une similitude CAM de 0,71 %, soit une amélioration de 38 % par rapport à son concurrent le plus proche selon la référence MAMBA.
Une API est-elle disponible ?
Oui Des API pour développeurs sont disponibles, avec des clés générées dans DubStudio.
Puis-je contrôler l'émotion de la parole générée ?
Oui Mars-instruct fournit des contrôles au niveau du directeur pour la transmission des émotions, le rythme et l'accent.