テキスト/スピーチ
あらゆるデバイス、あらゆる言語に対応するプロダクショングレードの音声合成
CAMB.AI の MARS8 モデルファミリーは、150以上の言語で自然で表現力豊かな音声合成を実現し、リアルタイム会話、コンテンツ制作、デバイス上での展開に特化したモデルを備えています。
なぜ CAMB.AI
CAMB.AI のテキスト・トゥ・スピーチは何が違うの?
CAMB.AI の音声合成 (Text-to-Speech) は、150以上の言語で、書かれたテキストを自然な人間の声の音声に変換し、世界の話者人口の 99% をカバーしています。MARS8 は、さまざまなユースケースに特化したモデルを備えた、最初のプロダクショングレードの TTS モデルファミリーです。各モデルは、レイテンシー、忠実度、および導入要件の特定のバランスに合わせて最適化されています。CAMB.AI の TTS モデルのオープンソース評価フレームワークである MAMBA ベンチマークで測定すると、Mars-Pro は 0.87 WavLM スピーカーの類似度と 0.71 CAM の類似性を達成しており、これは最も近い競合他社よりも 38% 向上しています。

主な機能
主要な音声合成機能
P: 必要な場合

150以上の言語での自然な発話
プレミアムレベルの言語(英語、ヒンディー語、フランス語、スペイン語、ドイツ語、日本語、アラビア語、韓国語、中国語、イタリア語、ポルトガル語、インドネシア語、オランダ語)は、10,000時間以上のデータでトレーニングされています。

ボイスクローニング
短いリファレンスサンプルから任意の話者の声を複製し、言語を超えて再現できます。MarsProは、0.87のWavLMスピーカー類似度を実現しています。

エモーションとプロソディコントロール
MARS-Instruct(1.2Bパラメーター)は、ディレクターレベルの感情コントロールを提供し、正確な感情の伝達、ペーシング、強調を実現します。

オンデバイスデプロイ
MARS-Nanoは、スマートフォン、自動車システム、イヤフォン、IoTハードウェアを含む120億台のデバイスに展開できます。インターネットは不要です。
能力
業界
音声合成は誰のために作られているのか?
P: 必要な場合

テクノロジー企業とプラットフォーム開発者
エンジニアリングチームは、音声対応アプリケーション、会話型インターフェイス、多言語ユーザーエクスペリエンスを構築しています。
猫 →

OEM とデバイスメーカー
スマートフォン、自動車システム、イヤフォン、スマートホームデバイス、ウェアラブル機器に音声を組み込むハードウェア企業。
猫 →

エンタープライズ組織
トレーニングコンテンツ、IVRシステム、顧客対応サポートワークフローに多言語音声を必要とするグローバル企業。
猫 →
ユースケース
音声合成の動作
p: 必要な場合





仕組み
4 つのステップでテキストから音声へ
ステップ 1
モデルを選択してください
リアルタイム用の火星フラッシュ(100ミリ秒TTFB)。プロダクショングレードのコンテンツ向けのMARS-Pro(スピーカーの類似度は 0.87)。MARS インストラクト (感情をコントロールした出力用)。オンデバイス用のMARS-Nano(50ミリ秒のTTFB、50万のパラメーター)。
ステップ 2
API 経由でインテグレーション
CAMB.AI の TTS API に接続し、テキスト入力を渡し、ターゲット言語 (150 種類以上) を選択し、オプションでクローニング用の音声リファレンスサンプルを提供します。
ステップ 3
音声と言語の設定
ボイスライブラリから選択するか、短いリファレンスサンプルからカスタムボイスを複製します。ディクショナリを使用してブランド固有の用語の発音を制御できます。
ステップ 4
デプロイとスケール
Webおよびサーバーアプリケーション用のAPIを介してクラウドベースのTTSをデプロイするか、デバイス上の統合用にMARS-Nanoをパッケージ化します。録音し直さなくても、言語間でスケーリングできます。
よくある質問
よくあるご質問
MARS8モデルにはどのような違いがありますか?
リアルタイムの会話型人工知能用の火星フラッシュ(パラメータ600万個、TTFB100ミリ秒)。コンテンツ制作用のマーズ・プロ(パラメータ6億個、TTFB 800ミリ秒~2秒)。ディレクターレベルの感情コントロール用のMARS-Instruct(1.2Bパラメーター)。MARS-Nano (5千万パラメーター、50ミリ秒のTTFB) により、120 億台のデバイスにわたるオンデバイスデプロイメントを実現します。
特定のボイスを複製することはできますか?
はい。短い参考音声サンプルを用意し、複数の言語で話者の身元を再現してください。MARS-Proは、WavLMスピーカーの類似度が0.87に達しました。
TTS はオフラインで実行できますか?
はい。MARS-Nanoはスマートフォン、車載システム、イヤフォン、ウェアラブル、IoTデバイス上でネイティブに動作し、インターネットに依存しません。
CAMB.AI TTS は競合他社と比較してどのようなパフォーマンスを発揮しますか?
MAMBAベンチマークによると、Mars-ProはWavLMスピーカーの類似度が0.87、CAMの類似度は0.71で、最も近い競合他社と比較して38%向上しています。
API は利用できますか?
はい。DubStudio 内でキーを生成したデベロッパー API が利用可能です。
生成された音声の感情をコントロールすることはできますか?
はい。MARS-Instructでは、感情の伝達、ペーシング、強調をディレクターレベルでコントロールできます。
.avif)