ClaudeGemini2026/04/15 15:00

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

claudejamodel: claude-haiku-4-5

Gemini 3.1 Flash TTS: 次世代の表現力豊かなAI音声生成モデル

Key Points

  • オーディオタグで音声表現を細かく制御
  • 70以上の言語に対応した高品質音声
  • SynthID ウォーターマークで信頼性を確保

Summary

Gemini 3.1 Flash TTS は、改善された音声品質と制御性を備えた最新のテキスト音声変換モデルです。自然言語コマンドを使用したオーディオタグにより、70以上の言語で音声スタイルとペーシングを細かく制御できます。

Key Points

  • 改善された音声品質: Artificial Analysis TTS リーダーボードで Elo スコア 1,211 を達成し、最も自然で表現力豊かなモデル
  • オーディオタグによる制御: テキスト内に自然言語コマンドを埋め込んで、音声スタイル、ペース、デリバリーを直感的に操作
  • マルチスピーカー対応: ネイティブなマルチスピーカーダイアログと 70+ 言語をサポート
  • Google AI Studio での開発: シーン設定、スピーカー固有の設定、インラインタグによる細かい制御が可能
  • SynthID ウォーターマーク: すべての生成音声に透かしを埋め込み、AI生成コンテンツの検出と偽情報防止に対応
  • グローバル展開: Gemini API、Vertex AI、Google Vids で段階的にロールアウト中

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

claudejamodel: claude-haiku-4-5

Gemini 3.1 Flash TTS: 次世代の表現力豊かなAI音声

概要

Gemini 3.1 Flash TTSは、改善されたAI音声品質と制御機能を提供します。音声タグを使用して、70以上の言語で音声スタイルとペーシングを調整できます。Google AI Studio、Vertex AI、Google Vidsでテストでき、すべての音声はSynthIDで透かし入れされており、偽情報を防ぐことができます。

主な特徴

  • Gemini 3.1 Flash TTS は、より優れた制御性、表現力、品質を備えた新しいAI音声モデルです
  • このモデルは音声品質が向上し、以前のバージョンよりも自然に聞こえます
  • 音声タグを使用して、自然言語コマンドで音声スタイル、ペース、デリバリーを制御できます
  • 開発者はGoogle AI Studioを使用して音声を微調整し、一貫した使用のための設定をエクスポートできます
  • Gemini 3.1 Flash TTSは70以上の言語をサポートし、SynthID透かしを使用してAI生成音声を識別します

基本説明

Gemini 3.1 Flash TTSは、コンピュータ音声をより自然に聞こえるようにする新しいAIです。テキスト内の特別なコマンドを使用して、AIの話し方を変更できます。このAIは70以上の言語で話すことができ、音声に隠れた透かしを追加します。これにより、実在の人物ではなくAI生成であることを人々が知ることができます。

改善された音声品質と制御性

Gemini 3.1 Flash TTSの全体的な音声品質を改善し、現在までで最も自然で表現力豊かなモデルにしました。Artificial Analysis TTSリーダーボード(数千の盲検人間選好をキャプチャするベンチマーク)では、3.1 Flash TTSは印象的なEloスコア1,211を達成しました。Artificial Analysisはまた、Gemini 3.1 Flash TTSを高品質な音声生成と低コストの理想的な組み合わせのための「最も魅力的なクアドラント」に位置付けています。このモデルは、ネイティブなマルチスピーカー対話、70以上の言語のサポート、自然言語による細粒度の創造的制御でさらに際立っています。

より表現力豊かな音声生成のための新しい音声タグ

3.1 Flash TTSは音声タグも導入しており、音声スタイル、ペース、デリバリーを制御する直感的な方法です。テキスト入力に自然言語コマンドを直接埋め込むことで、改善された粒度レベルでAI音声出力を操作できます。

Google AI Studioで、開発者を「監督の椅子」に置く設定可能なコントロールとともに、これらの音声タグと他の開発者体験の更新を試験開始できます:

シーン方向

環境を定義し、特定のダイアログ指示を提供することでステージを設定します。このワールドビルディングコンテキストは、キャラクターが「キャラクター内」にとどまり、複数のターンにわたって自然に互いに反応するのに役立ちます。

スピーカーレベルの特異性

ユニークなAudio Profilesを使用してキャラクターをキャスティングし、Director's Notesを指定してペース、トーン、アクセントを切り替えます。インラインタグを使用して、スピーカーはこれらの高レベルの設定から文の途中で表現を変更できます。

シームレスなエクスポート

パフォーマンスが完璧になったら、これらの正確なパラメータをGemini APIコードとしてエクスポートして、様々なプロジェクトとプラットフォーム全体で一貫性のある認識可能な音声を確保できます。

これらの新しい設定により、開発者は特定のシナリオの精度を向上させ、記憶に残るキャラクターと没入型の音声体験を作成できます。

Google AI Studio Playgroundで高忠実度音声生成を開始してください。

グローバルスケール向けに構築

Gemini 3.1 Flash TTSは、70以上の言語にわたって高忠実度音声とより正確な制御を提供します。これらのコア最適化により、主要市場に高度なスタイル、ペーシング、アクセント制御をもたらし、開発者がグローバルスケールでユーザー向けにローカライズされた表現力豊かな音声体験を作成するのに役立ちます。

初期の開発者およびエンタープライズテスターは、すでに3.1 Flash TTSの影響を見ており、その印象的な制御性と表現力を強調しています。彼らは、音声タグがどのように新しいレベルの創造的精度を提供し、シンプルなテキストを高忠実度のボーカルパフォーマンスに変換するかについて私たちに伝えてくれました。

SynthIDで透かし入れ

Gemini 3.1 Flash TTSで生成されたすべての音声は、SynthIDで透かし入れされています。この知覚できない透かしは音声出力に直接織り込まれており、AI生成コンテンツの信頼できる検出を可能にして、偽情報を防ぐのに役立ちます。

安全性と責任に対する私たちのアプローチの詳細については、モデルカードを確認できます。

Gemini 3.1 Flash TTS:表現力豊かなAI音声の次世代 | Gemini | DocsDigest