概要
Gemini 3.1 Flash TTS は、制御性、表現力、音声品質を向上させた新しいテキスト読み上げモデルです。音声タグ(audio tags)を使って声のスタイルや話速、発話のニュアンスを自然言語で細かく指定でき、70以上の言語に対応します。出力されるすべての音声には SynthID による透かしが埋め込まれており、AI生成音声の検出を支援します。Gemini API、Google AI Studio、Vertex AI、Google Vids で順次プレビュー提供が始まっています。
生成された要約は Google AI によるものです。Generative AI は実験的な技術です。
主なポイント
- "Gemini 3.1 Flash TTS" は、制御性・表現力・品質が向上した新しいAI音声モデル。
- 以前のバージョンより自然に聞こえる、改善された音声品質。
- audio tags により、自然言語コマンドでボーカルのスタイル、ペース、発話の仕方を制御可能。
- 開発者は Google AI Studio でボイスをファインチューニングし、設定をエクスポートして一貫した利用が可能。
- Gemini 3.1 Flash TTS は 70+ languages に対応し、出力音声には SynthID による透かしが付与される。
導入と提供状況
- 開発者向けプレビュー:Gemini API と Google AI Studio を通じて提供。
- 企業向けプレビュー:Vertex AI で提供。
- Workspace ユーザー:Google Vids で利用可能。
改善された音声品質と制御性
Gemini 3.1 Flash TTS は全体的な音声品質を向上させ、現行の中で最も自然で表現力豊かなモデルになっています。Artificial Analysis TTS leaderboard(数千件のブラインドテストの人間の嗜好を取るベンチマーク)では、3.1 Flash TTS が Elo score of 1,211 を記録しました。Artificial Analysis はまた、本モデルを「most attractive quadrant」に配置し、高品質な音声生成と低コストの理想的な組み合わせを評価しています。
その他の特徴:
- ネイティブなマルチスピーカーダイアログ対応
- 70+ languages サポート
- 自然言語による細かなクリエイティブ制御
より表現豊かな音声生成のための新しい audio tags
3.1 Flash TTS は audio tags を導入します。これはテキスト入力の中に自然言語コマンドを埋め込むことで、ボーカルのスタイル、話速、発話のトーンを直感的に制御できる仕組みです。Google AI Studio には、開発者が「演出家」の立場で設定できる構成オプションが用意されています。
重要な機能:
- Scene direction: 環境を設定し、具体的なセリフ指示を与えることでワールドビルディングを行い、キャラクターが複数ターンにわたって自然に“in-character”に振る舞えるようにする。
- Speaker-level specificity: Audio Profiles でキャラクターを割り当て、Director’s Notes でペース、トーン、アクセントを切り替え。inline tags を使えば、これらの高レベル設定から文中で表現を切り替えることができる。
- Seamless export: パフォーマンスが完成したら、同じパラメータを Gemini API 用のコードとしてエクスポートし、さまざまなプロジェクトやプラットフォームで一貫した認識可能なボイスを再現可能。
これらの新しい設定により、特定のシナリオに対する精密さを高め、印象に残るキャラクターや没入感の高い音声体験を作成できます。
Google AI Studio Playground で高品質音声生成をすぐに試せます。
グローバル対応を見据えた設計
Gemini 3.1 Flash TTS は 70以上の言語で高品位な音声とより精密な制御を提供します。スタイル、話速、アクセントに関するコア最適化により、主要市場でのローカライズされた表現力豊かな音声体験をスケールして提供できるよう設計されています。早期の開発者・企業テスターからは、その制御性と表現力の高さ、そして audio tags によるクリエイティブな精密度の向上が高く評価されています。
SynthID による透かし
Gemini 3.1 Flash TTS で生成されるすべての音声には SynthID による透かしが埋め込まれます。この知覚しにくい透かしは音声出力に直接組み込まれており、AI生成コンテンツの検出を信頼性高く行うことで誤情報対策に寄与します。安全性と責任ある利用に関する詳細はモデルカード(model card)をご確認ください。
参考と注意
- 一部の要約は Google AI によって生成されています。Generative AI は実験的な技術です。
- Google AI Studio、Gemini API、Vertex AI、Google Vids、GhostID/SynthID などの固有名詞およびバージョン表記は原文のまま保持しています。