テキスト/スピーチ

あらゆるデバイス、あらゆる言語に対応するプロダクショングレードの音声合成

Q: MARS8モデルにはどのような違いがありますか？

リアルタイムの会話型人工知能用の火星フラッシュ（パラメータ6億個、TTFB100ミリ秒）。コンテンツ制作用の MarsPro (パラメーター 6 億、TTFB は 800 ミリ秒から 2 秒)。ディレクターレベルの感情コントロール用の MarsInstruct (1.2 B パラメーター)。MarsNano（5千万のパラメーター、50ミリ秒のTTFB）により、120億台のデバイスにわたるオンデバイス展開が可能になります。

Q: 特定のボイスを複製することはできますか？

はい。短い参考音声サンプルを用意し、複数の言語で話者の身元を再現してください。MarsPro は WavLM スピーカーの類似度が 0.87 に達しています。

Q: TTS はオフラインで実行できますか?

はい。MarsNanoは、スマートフォン、自動車システム、イヤフォン、ウェアラブル、IoTデバイスでネイティブに動作し、インターネットに依存しません。

Q: CAMB.AI TTS は競合他社と比較してどのようなパフォーマンスを発揮しますか?

MarsProはWavLMスピーカーの類似度が0.87、CAMの類似度は0.71で、MAMBAベンチマークによると、最も近い競合他社と比べて 38% 向上しています。

Q: 生成された音声の感情をコントロールすることはできますか？

はい。MarsInstructでは、感情の伝達、ペーシング、強調をディレクターレベルでコントロールできます。

CAMB.AI の MARS8 モデルファミリーは、150以上の言語で自然で表現力豊かな音声合成を実現し、リアルタイム会話、コンテンツ制作、デバイス上での展開に特化したモデルを備えています。

API アクセスを取得

CAMB.AI text-to-speech supports languages including English, Spanish, Hindi, French, Arabic, Mandarin, Japanese, German, Portuguese, Italian, Korean, Dutch, Turkish and 140+ more.

The demo includes multilingual AI voices for text-to-speech generation, including male, female and neutral voice options across supported languages.

Language Voice

Input Text

0 / 500

なぜ CAMB.AI

CAMB.AI のテキスト・トゥ・スピーチは何が違うの？

CAMB.AI の音声合成 (Text-to-Speech) は、150以上の言語で、書かれたテキストを自然な人間の声の音声に変換し、世界の話者人口の 99% をカバーしています。MARS8 は、さまざまなユースケースに特化したモデルを備えた、最初のプロダクショングレードの TTS モデルファミリーです。各モデルは、レイテンシー、忠実度、および導入要件の特定のバランスに合わせて最適化されています。CAMB.AI の TTS モデルのオープンソース評価フレームワークである MAMBA ベンチマークで測定すると、Mars-Pro は 0.87 WavLM スピーカーの類似度と 0.71 CAM の類似性を達成しており、これは最も近い競合他社よりも 38% 向上しています。

主な機能

主要な音声合成機能

150以上の言語での自然な発話

プレミアムレベルの言語（英語、ヒンディー語、フランス語、スペイン語、ドイツ語、日本語、アラビア語、韓国語、中国語、イタリア語、ポルトガル語、インドネシア語、オランダ語）は、10,000時間以上のデータでトレーニングされています。

ボイスクローニング

短いリファレンスサンプルから任意の話者の声を複製し、言語を超えて再現できます。MarsProは、0.87のWavLMスピーカー類似度を実現しています。

エモーションとプロソディコントロール

MARS-Instruct（1.2Bパラメーター）は、ディレクターレベルの感情コントロールを提供し、正確な感情の伝達、ペーシング、強調を実現します。

オンデバイスデプロイ

MARS-Nanoは、スマートフォン、自動車システム、イヤフォン、IoTハードウェアを含む120億台のデバイスに展開できます。インターネットは不要です。

能力

業界

音声合成は誰のために作られているのか？

テクノロジー企業とプラットフォーム開発者

エンジニアリングチームは、音声対応アプリケーション、会話型インターフェイス、多言語ユーザーエクスペリエンスを構築しています。

猫 →

OEM とデバイスメーカー

スマートフォン、自動車システム、イヤフォン、スマートホームデバイス、ウェアラブル機器に音声を組み込むハードウェア企業。

猫 →

エンタープライズ組織

トレーニングコンテンツ、IVRシステム、顧客対応サポートワークフローに多言語音声を必要とするグローバル企業。

猫 →

ユースケース

音声合成の動作

車載音声システム

MarsNanoのオンデバイスTTSにナビゲーションプロンプトと車載アシスタントを埋め込むと、携帯電話接続は不要です。

CTA

コンテンツナレーションとナレーション

MarsProのボイスクローニングを使用して、製品デモ、トレーニング資料、マーケティングコンテンツ用の多言語ナレーションを生成します。

CTA

IVR とテレコムオートメーション

静的な録音を動的な多言語 TTS に置き換えます。再録音せずに言語を追加することで、新しい市場に拡張できます。

CTA

IoT とウェアラブルデバイス

Mars-Nanoの50Mパラメータモデルを使用して、リソースに制約のあるハードウェアに音声出力を追加します。

CTA

会話型 AI と音声エージェント

150以上の言語に対応するMarsFlashの100ミリ秒TTFBで、カスタマーサービスボットと音声アシスタントを強化しましょう。

CTA

仕組み

4 つのステップでテキストから音声へ

ステップ 1

モデルを選択してください

リアルタイム用の火星フラッシュ（100ミリ秒TTFB）。プロダクショングレードのコンテンツ向けのMARS-Pro（スピーカーの類似度は 0.87）。MARS インストラクト (感情をコントロールした出力用)。オンデバイス用のMARS-Nano（50ミリ秒のTTFB、50万のパラメーター）。

ステップ 2

API 経由でインテグレーション

CAMB.AI の TTS API に接続し、テキスト入力を渡し、ターゲット言語 (150 種類以上) を選択し、オプションでクローニング用の音声リファレンスサンプルを提供します。

ステップ 3

音声と言語の設定

ボイスライブラリから選択するか、短いリファレンスサンプルからカスタムボイスを複製します。ディクショナリを使用してブランド固有の用語の発音を制御できます。

ステップ 4

デプロイとスケール

Webおよびサーバーアプリケーション用のAPIを介してクラウドベースのTTSをデプロイするか、デバイス上の統合用にMARS-Nanoをパッケージ化します。録音し直さなくても、言語間でスケーリングできます。

よくある質問

よくあるご質問

MARS8モデルにはどのような違いがありますか？

リアルタイムの会話型人工知能用の火星フラッシュ（パラメータ600万個、TTFB100ミリ秒）。コンテンツ制作用のマーズ・プロ（パラメータ6億個、TTFB 800ミリ秒～2秒）。ディレクターレベルの感情コントロール用のMARS-Instruct（1.2Bパラメーター）。MARS-Nano (5千万パラメーター、50ミリ秒のTTFB) により、120 億台のデバイスにわたるオンデバイスデプロイメントを実現します。

特定のボイスを複製することはできますか？

はい。短い参考音声サンプルを用意し、複数の言語で話者の身元を再現してください。MARS-Proは、WavLMスピーカーの類似度が0.87に達しました。

TTS はオフラインで実行できますか?

はい。MARS-Nanoはスマートフォン、車載システム、イヤフォン、ウェアラブル、IoTデバイス上でネイティブに動作し、インターネットに依存しません。

CAMB.AI TTS は競合他社と比較してどのようなパフォーマンスを発揮しますか?

MAMBAベンチマークによると、Mars-ProはWavLMスピーカーの類似度が0.87、CAMの類似度は0.71で、最も近い競合他社と比較して38％向上しています。

API は利用できますか?

はい。DubStudio 内でキーを生成したデベロッパー API が利用可能です。

生成された音声の感情をコントロールすることはできますか？

はい。MARS-Instructでは、感情の伝達、ペーシング、強調をディレクターレベルでコントロールできます。