OpenAIGeminiApr 15, 2026, 3:00 PM

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

Key Points

  • Audio tags enable granular control of style and pacing
  • Supports 70+ languages with multi‑speaker dialogue
  • All output watermarked with SynthID

Summary

Gemini 3.1 Flash TTS is a high-fidelity text-to-speech model focused on improved naturalness, expressivity, and developer control. It introduces audio tags for granular, inline control of vocal style, pacing, and delivery, supports native multi-speaker dialogue across 70+ languages, and stamps all outputs with SynthID for provenance. The model is available in preview for developers (Gemini API, Google AI Studio), enterprises (Vertex AI), and Workspace users (Google Vids).

Key Points

  • Improved speech quality and expressivity (Artificial Analysis TTS Elo score: 1,211; placed in the “most attractive quadrant”).
  • Audio tags: embed natural-language directives to control scene direction, speaker-specific Audio Profiles, Director's Notes, and inline tag-driven changes mid-sentence.
  • Developer workflow: experiment in Google AI Studio Playground, configure controls, fine-tune or export exact parameters as Gemini API code for reproducible voices across apps.
  • Global scale: high-fidelity output and advanced style/pacing control for 70+ languages and multi-speaker scenarios.
  • Safety and provenance: all generated audio includes an imperceptible SynthID watermark to enable detection of AI-generated content.

Practical notes for engineers

  • Try samples and iterate in Google AI Studio Playground; export settings to Gemini API code to reproduce performances in production.
  • Use audio tags and Audio Profiles to build character-driven dialogue or localized voices; inline tags allow mid-utterance expression shifts.
  • Account for SynthID watermarking in your content pipeline and compliance reviews; review the model card for usage and safety guidance.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

Gemini 3.1 Flash TTS:表現力豊かなAI音声の次世代

概要

Gemini 3.1 Flash TTS は、制御性、表現力、音声品質を向上させた新しいテキスト読み上げモデルです。音声タグ(audio tags)を使って声のスタイルや話速、発話のニュアンスを自然言語で細かく指定でき、70以上の言語に対応します。出力されるすべての音声には SynthID による透かしが埋め込まれており、AI生成音声の検出を支援します。Gemini API、Google AI Studio、Vertex AI、Google Vids で順次プレビュー提供が始まっています。

生成された要約は Google AI によるものです。Generative AI は実験的な技術です。

主なポイント

  • "Gemini 3.1 Flash TTS" は、制御性・表現力・品質が向上した新しいAI音声モデル。
  • 以前のバージョンより自然に聞こえる、改善された音声品質。
  • audio tags により、自然言語コマンドでボーカルのスタイル、ペース、発話の仕方を制御可能。
  • 開発者は Google AI Studio でボイスをファインチューニングし、設定をエクスポートして一貫した利用が可能。
  • Gemini 3.1 Flash TTS は 70+ languages に対応し、出力音声には SynthID による透かしが付与される。

導入と提供状況

  • 開発者向けプレビュー:Gemini API と Google AI Studio を通じて提供。
  • 企業向けプレビュー:Vertex AI で提供。
  • Workspace ユーザー:Google Vids で利用可能。

改善された音声品質と制御性

Gemini 3.1 Flash TTS は全体的な音声品質を向上させ、現行の中で最も自然で表現力豊かなモデルになっています。Artificial Analysis TTS leaderboard(数千件のブラインドテストの人間の嗜好を取るベンチマーク)では、3.1 Flash TTS が Elo score of 1,211 を記録しました。Artificial Analysis はまた、本モデルを「most attractive quadrant」に配置し、高品質な音声生成と低コストの理想的な組み合わせを評価しています。

その他の特徴:

  • ネイティブなマルチスピーカーダイアログ対応
  • 70+ languages サポート
  • 自然言語による細かなクリエイティブ制御

より表現豊かな音声生成のための新しい audio tags

3.1 Flash TTS は audio tags を導入します。これはテキスト入力の中に自然言語コマンドを埋め込むことで、ボーカルのスタイル、話速、発話のトーンを直感的に制御できる仕組みです。Google AI Studio には、開発者が「演出家」の立場で設定できる構成オプションが用意されています。

重要な機能:

  • Scene direction: 環境を設定し、具体的なセリフ指示を与えることでワールドビルディングを行い、キャラクターが複数ターンにわたって自然に“in-character”に振る舞えるようにする。
  • Speaker-level specificity: Audio Profiles でキャラクターを割り当て、Director’s Notes でペース、トーン、アクセントを切り替え。inline tags を使えば、これらの高レベル設定から文中で表現を切り替えることができる。
  • Seamless export: パフォーマンスが完成したら、同じパラメータを Gemini API 用のコードとしてエクスポートし、さまざまなプロジェクトやプラットフォームで一貫した認識可能なボイスを再現可能。

これらの新しい設定により、特定のシナリオに対する精密さを高め、印象に残るキャラクターや没入感の高い音声体験を作成できます。

Google AI Studio Playground で高品質音声生成をすぐに試せます。

グローバル対応を見据えた設計

Gemini 3.1 Flash TTS は 70以上の言語で高品位な音声とより精密な制御を提供します。スタイル、話速、アクセントに関するコア最適化により、主要市場でのローカライズされた表現力豊かな音声体験をスケールして提供できるよう設計されています。早期の開発者・企業テスターからは、その制御性と表現力の高さ、そして audio tags によるクリエイティブな精密度の向上が高く評価されています。

SynthID による透かし

Gemini 3.1 Flash TTS で生成されるすべての音声には SynthID による透かしが埋め込まれます。この知覚しにくい透かしは音声出力に直接組み込まれており、AI生成コンテンツの検出を信頼性高く行うことで誤情報対策に寄与します。安全性と責任ある利用に関する詳細はモデルカード(model card)をご確認ください。

参考と注意

  • 一部の要約は Google AI によって生成されています。Generative AI は実験的な技術です。
  • Google AI Studio、Gemini API、Vertex AI、Google Vids、GhostID/SynthID などの固有名詞およびバージョン表記は原文のまま保持しています。