ClaudeGeminiMar 26, 2026, 3:21 PM

Gemini 3.1 Flash Live: Making audio AI more natural and reliable

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-sonnet-4-20250514

Gemini 3.1 Flash Live: Enhanced Audio AI with Improved Quality and Global Expansion

Key Points

  • 90.8% score on ComplexFuncBench Audio benchmark
  • Global expansion to 200+ countries with multilingual support
  • SynthID watermarking for AI-generated audio detection

Summary

Google has released Gemini 3.1 Flash Live, their highest-quality audio and voice model designed for real-time dialogue applications. The model delivers significant improvements in speed, natural conversation flow, and task execution reliability for voice-first AI experiences.

Key Points

  • Performance Improvements: Achieves 90.8% on ComplexFuncBench Audio and 36.1% on Scale AI's Audio MultiChallenge, demonstrating superior multi-step function calling and complex instruction following
  • Enhanced Tonal Understanding: Better recognition of acoustic nuances like pitch and pace, with improved ability to adjust responses based on user emotions (frustration, confusion)
  • Developer Access: Available via Gemini Live API in Google AI Studio for building voice-ready agents that handle complex tasks in noisy environments
  • Enterprise Integration: Integrated into Gemini Enterprise for Customer Experience with companies like Verizon, LiveKit, and The Home Depot providing positive feedback
  • Global Expansion: Powers Search Live expansion to 200+ countries with inherent multilingual support
  • Conversation Continuity: Can follow conversation threads twice as long as previous models, maintaining context during extended interactions
  • Safety Features: All generated audio includes SynthID watermarking to prevent misinformation and enable AI content detection

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-sonnet-4-20250514

Gemini 3.1 Flash Live: 音声AIをより自然で信頼性の高いものに

Gemini 3.1 Flash Live: 音声AIをより自然で信頼性の高いものに

2026年3月26日

私たちの最新音声モデルは、精度の向上と低レイテンシーを実現し、音声インタラクションをより流暢で自然、そして正確にします。

Valeria Wu プロダクトマネージャー
Yifan Ding ソフトウェアエンジニア
Geminiチーム代表

概要

Gemini 3.1 Flash Liveは、自然で信頼性の高いリアルタイム対話のために設計されたGoogleの最高品質音声モデルです。開発者はGoogle AI StudioのGemini Live APIを通じてアクセスでき、企業は顧客体験に活用できます。すべての人がSearch LiveとGemini Liveを通じて体験でき、現在200以上の国と地域でサポートされています。

主なポイント

  • Gemini 3.1 Flash Liveにより、AI音声がより自然で信頼性の高いものになりました
  • この新しい音声モデルは、より高速で、自然な会話のためのトーンの理解が向上しています
  • 開発者は、複雑なタスクをより確実に処理する音声エージェントを構築できます
  • Gemini LiveとSearch Liveは、多くの言語でより有用な応答を提供します
  • 3.1 Flash Liveからのすべての音声には、誤情報の拡散防止に役立つ透かしが埋め込まれています

リアルタイム対話機能の進歩

本日、私たちはGemini 3.1 Flash Live(これまでで最高品質の音声・ボイスモデル)により、Geminiのリアルタイム対話機能を進歩させています。次世代の音声ファーストAIに必要な速度と自然なリズムを提供し、開発者、企業、そして日常的なユーザーにとってより直感的な体験を提供します。

3.1 Flash Liveは、Googleの製品全体で利用可能です:

  • 開発者向け: Google AI StudioのGemini Live APIを通じてプレビュー版で提供
  • 企業向け: Gemini Enterprise for Customer Experienceで提供
  • すべての人向け: Search LiveとGemini Liveで提供

開発者向け: 堅牢な推論とタスク実行

3.1 Flash Liveの全体的な品質を向上させ、開発者と企業が複雑なタスクを大規模に完了できる音声ファーストエージェントを構築するためにより信頼性の高いものにしました。

ComplexFuncBench Audio(様々な制約を持つマルチステップ関数呼び出しを捉えるベンチマーク)では、以前のモデルと比較して90.8%のスコアでリードしています。

Scale AIのAudio MultiChallengeでは、Gemini 3.1 Flash Liveが「thinking」モードオンで36.1%のスコアでリードしています。このベンチマークは、実世界の音声に典型的な中断や躊躇の中での複雑な指示の理解と長期的推論を特にテストします。

3.1 Flash Liveは、より自然な対話を提供するためのトーン理解も向上しています。Gemini Enterprise for Customer Experienceでは、2.5 Flash Native Audioよりもピッチやペースなどの音響的ニュアンスの認識がさらに効果的になっています。また、ユーザーのフラストレーションや混乱の表現に対して動的に応答を調整することも向上しています。

3.1 Flash Liveにより、ノイズの多い環境で複雑なタスクを処理する音声対応エージェントを構築できます。

3.1 Flash Liveにより、音声を使ってコードを直感的に作成し、迅速に反復できます。

Verizon、LiveKit、The Home Depotなどの企業は、ワークフローにおける3.1 Flash Liveについて、改善された自然な会話を強調して肯定的なフィードバックを提供しています。

すべての人向け: より自然で直感的なインタラクション

Gemini LiveとSearch Liveでは、3.1 Flash Liveモデルが、日常的な簡単な質問から複雑な会話まで、より有用で自然な応答を提供します。

3.1 Flash Liveモデルを基盤として、Gemini Liveは以前のモデルと比較してより高速な応答を提供し、会話の流れを2倍長く追跡できるため、長時間のブレインストーミング中も思考の流れを維持できます。

3.1 Flash Liveは本質的に多言語対応であり、今週のSearch Liveのグローバル展開を可能にしています。この展開により、200以上の国と地域の人々が、好みの言語でSearchとリアルタイムのマルチモーダル会話を行えるようになりました。

今すぐGemini 3.1 Flash Liveを試す

3.1 Flash Liveで生成されるすべての音声には、SynthIDによる透かしが埋め込まれています。この知覚できない透かしは音声出力に直接織り込まれ、AI生成コンテンツの確実な検出を可能にし、誤情報の防止に役立ちます。

安全性と責任に対する私たちのアプローチの詳細については、モデルカードをご覧ください。

本日から、3.1 Flash Liveの自然さと信頼性を体験してください。皆様がどのようにインタラクションし、構築されるかを楽しみにしています。