Gemini 3.1 Flash Live: Making audio AI more natural and reliable

claudejamodel: claude-sonnet-4-20250514

Gemini 3.1 Flash Live: 音声AIをより自然で信頼性の高いものに

2026年3月26日

私たちの最新音声モデルは、精度の向上と低レイテンシーを実現し、音声インタラクションをより流暢で自然、そして正確にします。

Valeria Wu プロダクトマネージャー
Yifan Ding ソフトウェアエンジニア
Geminiチーム代表

概要

Gemini 3.1 Flash Liveは、自然で信頼性の高いリアルタイム対話のために設計されたGoogleの最高品質音声モデルです。開発者はGoogle AI StudioのGemini Live APIを通じてアクセスでき、企業は顧客体験に活用できます。すべての人がSearch LiveとGemini Liveを通じて体験でき、現在200以上の国と地域でサポートされています。

主なポイント

Gemini 3.1 Flash Liveにより、AI音声がより自然で信頼性の高いものになりました
この新しい音声モデルは、より高速で、自然な会話のためのトーンの理解が向上しています
開発者は、複雑なタスクをより確実に処理する音声エージェントを構築できます
Gemini LiveとSearch Liveは、多くの言語でより有用な応答を提供します
3.1 Flash Liveからのすべての音声には、誤情報の拡散防止に役立つ透かしが埋め込まれています

リアルタイム対話機能の進歩

本日、私たちはGemini 3.1 Flash Live（これまでで最高品質の音声・ボイスモデル）により、Geminiのリアルタイム対話機能を進歩させています。次世代の音声ファーストAIに必要な速度と自然なリズムを提供し、開発者、企業、そして日常的なユーザーにとってより直感的な体験を提供します。

3.1 Flash Liveは、Googleの製品全体で利用可能です：

開発者向け: Google AI StudioのGemini Live APIを通じてプレビュー版で提供
企業向け: Gemini Enterprise for Customer Experienceで提供
すべての人向け: Search LiveとGemini Liveで提供

開発者向け: 堅牢な推論とタスク実行

3.1 Flash Liveの全体的な品質を向上させ、開発者と企業が複雑なタスクを大規模に完了できる音声ファーストエージェントを構築するためにより信頼性の高いものにしました。

ComplexFuncBench Audio（様々な制約を持つマルチステップ関数呼び出しを捉えるベンチマーク）では、以前のモデルと比較して90.8%のスコアでリードしています。

Scale AIのAudio MultiChallengeでは、Gemini 3.1 Flash Liveが「thinking」モードオンで36.1%のスコアでリードしています。このベンチマークは、実世界の音声に典型的な中断や躊躇の中での複雑な指示の理解と長期的推論を特にテストします。

3.1 Flash Liveは、より自然な対話を提供するためのトーン理解も向上しています。Gemini Enterprise for Customer Experienceでは、2.5 Flash Native Audioよりもピッチやペースなどの音響的ニュアンスの認識がさらに効果的になっています。また、ユーザーのフラストレーションや混乱の表現に対して動的に応答を調整することも向上しています。

3.1 Flash Liveにより、ノイズの多い環境で複雑なタスクを処理する音声対応エージェントを構築できます。

3.1 Flash Liveにより、音声を使ってコードを直感的に作成し、迅速に反復できます。

Verizon、LiveKit、The Home Depotなどの企業は、ワークフローにおける3.1 Flash Liveについて、改善された自然な会話を強調して肯定的なフィードバックを提供しています。

すべての人向け: より自然で直感的なインタラクション

Gemini LiveとSearch Liveでは、3.1 Flash Liveモデルが、日常的な簡単な質問から複雑な会話まで、より有用で自然な応答を提供します。

3.1 Flash Liveモデルを基盤として、Gemini Liveは以前のモデルと比較してより高速な応答を提供し、会話の流れを2倍長く追跡できるため、長時間のブレインストーミング中も思考の流れを維持できます。

3.1 Flash Liveは本質的に多言語対応であり、今週のSearch Liveのグローバル展開を可能にしています。この展開により、200以上の国と地域の人々が、好みの言語でSearchとリアルタイムのマルチモーダル会話を行えるようになりました。

今すぐGemini 3.1 Flash Liveを試す

3.1 Flash Liveで生成されるすべての音声には、SynthIDによる透かしが埋め込まれています。この知覚できない透かしは音声出力に直接織り込まれ、AI生成コンテンツの確実な検出を可能にし、誤情報の防止に役立ちます。

安全性と責任に対する私たちのアプローチの詳細については、モデルカードをご覧ください。

本日から、3.1 Flash Liveの自然さと信頼性を体験してください。皆様がどのようにインタラクションし、構築されるかを楽しみにしています。

Summary