ClaudeGeminiApr 15, 2026, 3:00 PM

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-haiku-4-5

Gemini 3.1 Flash TTS: Next-Generation Expressive AI Speech Model

Key Points

  • Audio tags enable granular control over vocal style and pacing
  • Supports 70+ languages with native multi-speaker dialogue
  • SynthID watermarking for AI-generated audio detection

Summary

Google has released Gemini 3.1 Flash TTS, an advanced text-to-speech model delivering improved controllability, expressivity, and natural speech quality. The model is now available in preview for developers via Gemini API and Google AI Studio, for enterprises on Vertex AI, and for Workspace users through Google Vids.

Key Points

  • Enhanced Speech Quality: Achieved an Elo score of 1,211 on the Artificial Analysis TTS leaderboard, positioning it in the "most attractive quadrant" for high-quality generation at low cost
  • Audio Tags for Precise Control: New granular audio tags enable natural language commands to adjust vocal style, pace, and delivery mid-sentence using inline tags
  • Global Language Support: Supports 70+ languages with native multi-speaker dialogue capabilities for localized, expressive speech experiences
  • Developer-Friendly Tools: Google AI Studio provides configurable controls including scene direction, speaker-level specificity, and seamless API code export for consistent voice implementation
  • SynthID Watermarking: All generated audio includes imperceptible watermarks to reliably detect AI-generated content and prevent misinformation

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-haiku-4-5

Gemini 3.1 Flash TTS: 次世代の表現力豊かなAI音声

概要

Gemini 3.1 Flash TTSは、改善されたAI音声品質と制御機能を提供します。音声タグを使用して、70以上の言語で音声スタイルとペーシングを調整できます。Google AI Studio、Vertex AI、Google Vidsでテストでき、すべての音声はSynthIDで透かし入れされており、偽情報を防ぐことができます。

主な特徴

  • Gemini 3.1 Flash TTS は、より優れた制御性、表現力、品質を備えた新しいAI音声モデルです
  • このモデルは音声品質が向上し、以前のバージョンよりも自然に聞こえます
  • 音声タグを使用して、自然言語コマンドで音声スタイル、ペース、デリバリーを制御できます
  • 開発者はGoogle AI Studioを使用して音声を微調整し、一貫した使用のための設定をエクスポートできます
  • Gemini 3.1 Flash TTSは70以上の言語をサポートし、SynthID透かしを使用してAI生成音声を識別します

基本説明

Gemini 3.1 Flash TTSは、コンピュータ音声をより自然に聞こえるようにする新しいAIです。テキスト内の特別なコマンドを使用して、AIの話し方を変更できます。このAIは70以上の言語で話すことができ、音声に隠れた透かしを追加します。これにより、実在の人物ではなくAI生成であることを人々が知ることができます。

改善された音声品質と制御性

Gemini 3.1 Flash TTSの全体的な音声品質を改善し、現在までで最も自然で表現力豊かなモデルにしました。Artificial Analysis TTSリーダーボード(数千の盲検人間選好をキャプチャするベンチマーク)では、3.1 Flash TTSは印象的なEloスコア1,211を達成しました。Artificial Analysisはまた、Gemini 3.1 Flash TTSを高品質な音声生成と低コストの理想的な組み合わせのための「最も魅力的なクアドラント」に位置付けています。このモデルは、ネイティブなマルチスピーカー対話、70以上の言語のサポート、自然言語による細粒度の創造的制御でさらに際立っています。

より表現力豊かな音声生成のための新しい音声タグ

3.1 Flash TTSは音声タグも導入しており、音声スタイル、ペース、デリバリーを制御する直感的な方法です。テキスト入力に自然言語コマンドを直接埋め込むことで、改善された粒度レベルでAI音声出力を操作できます。

Google AI Studioで、開発者を「監督の椅子」に置く設定可能なコントロールとともに、これらの音声タグと他の開発者体験の更新を試験開始できます:

シーン方向

環境を定義し、特定のダイアログ指示を提供することでステージを設定します。このワールドビルディングコンテキストは、キャラクターが「キャラクター内」にとどまり、複数のターンにわたって自然に互いに反応するのに役立ちます。

スピーカーレベルの特異性

ユニークなAudio Profilesを使用してキャラクターをキャスティングし、Director's Notesを指定してペース、トーン、アクセントを切り替えます。インラインタグを使用して、スピーカーはこれらの高レベルの設定から文の途中で表現を変更できます。

シームレスなエクスポート

パフォーマンスが完璧になったら、これらの正確なパラメータをGemini APIコードとしてエクスポートして、様々なプロジェクトとプラットフォーム全体で一貫性のある認識可能な音声を確保できます。

これらの新しい設定により、開発者は特定のシナリオの精度を向上させ、記憶に残るキャラクターと没入型の音声体験を作成できます。

Google AI Studio Playgroundで高忠実度音声生成を開始してください。

グローバルスケール向けに構築

Gemini 3.1 Flash TTSは、70以上の言語にわたって高忠実度音声とより正確な制御を提供します。これらのコア最適化により、主要市場に高度なスタイル、ペーシング、アクセント制御をもたらし、開発者がグローバルスケールでユーザー向けにローカライズされた表現力豊かな音声体験を作成するのに役立ちます。

初期の開発者およびエンタープライズテスターは、すでに3.1 Flash TTSの影響を見ており、その印象的な制御性と表現力を強調しています。彼らは、音声タグがどのように新しいレベルの創造的精度を提供し、シンプルなテキストを高忠実度のボーカルパフォーマンスに変換するかについて私たちに伝えてくれました。

SynthIDで透かし入れ

Gemini 3.1 Flash TTSで生成されたすべての音声は、SynthIDで透かし入れされています。この知覚できない透かしは音声出力に直接織り込まれており、AI生成コンテンツの信頼できる検出を可能にして、偽情報を防ぐのに役立ちます。

安全性と責任に対する私たちのアプローチの詳細については、モデルカードを確認できます。

Gemini 3.1 Flash TTS: the next generation of expressive AI speech | Gemini | DocsDigest