ClaudeGemini2026/03/26 15:21

Gemini 3.1 Flash Live: Making audio AI more natural and reliable

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

claudejamodel: claude-sonnet-4-20250514

Gemini 3.1 Flash Live: より自然で信頼性の高い音声AIの実現

Key Points

  • リアルタイム音声対話の精度と速度が大幅向上
  • 200以上の国・地域でSearch Liveが利用可能に
  • SynthID透かし機能で偽情報対策を強化

Summary

Googleが新しい音声モデル「Gemini 3.1 Flash Live」をリリース。リアルタイム対話における精度向上と低レイテンシを実現し、より流暢で自然な音声インタラクションを提供する。

Key Points

  • 性能向上: ComplexFuncBench Audioで90.8%、Scale AI's Audio MultiChallengeで36.1%のスコアを達成
  • 開発者向け: Google AI Studio経由でGemini Live APIとして利用可能(プレビュー版)
  • 企業向け: Gemini Enterprise for Customer Experienceで顧客体験の向上を支援
  • 一般ユーザー向け: Search LiveとGemini Liveで200以上の国・地域で利用可能
  • 技術的特徴:
    • トーンの理解力向上により自然な対話を実現
    • 複雑なタスクの実行能力向上
    • 多言語対応によるグローバル展開
    • SynthIDによる音声透かし機能で偽情報対策
  • 実用性: ノイズの多い環境での複雑なタスク処理、長時間の会話継続が可能

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

claudejamodel: claude-sonnet-4-20250514

Gemini 3.1 Flash Live: 音声AIをより自然で信頼性の高いものに

Gemini 3.1 Flash Live: 音声AIをより自然で信頼性の高いものに

2026年3月26日

私たちの最新音声モデルは、精度の向上と低レイテンシーを実現し、音声インタラクションをより流暢で自然、そして正確にします。

Valeria Wu プロダクトマネージャー
Yifan Ding ソフトウェアエンジニア
Geminiチーム代表

概要

Gemini 3.1 Flash Liveは、自然で信頼性の高いリアルタイム対話のために設計されたGoogleの最高品質音声モデルです。開発者はGoogle AI StudioのGemini Live APIを通じてアクセスでき、企業は顧客体験に活用できます。すべての人がSearch LiveとGemini Liveを通じて体験でき、現在200以上の国と地域でサポートされています。

主なポイント

  • Gemini 3.1 Flash Liveにより、AI音声がより自然で信頼性の高いものになりました
  • この新しい音声モデルは、より高速で、自然な会話のためのトーンの理解が向上しています
  • 開発者は、複雑なタスクをより確実に処理する音声エージェントを構築できます
  • Gemini LiveとSearch Liveは、多くの言語でより有用な応答を提供します
  • 3.1 Flash Liveからのすべての音声には、誤情報の拡散防止に役立つ透かしが埋め込まれています

リアルタイム対話機能の進歩

本日、私たちはGemini 3.1 Flash Live(これまでで最高品質の音声・ボイスモデル)により、Geminiのリアルタイム対話機能を進歩させています。次世代の音声ファーストAIに必要な速度と自然なリズムを提供し、開発者、企業、そして日常的なユーザーにとってより直感的な体験を提供します。

3.1 Flash Liveは、Googleの製品全体で利用可能です:

  • 開発者向け: Google AI StudioのGemini Live APIを通じてプレビュー版で提供
  • 企業向け: Gemini Enterprise for Customer Experienceで提供
  • すべての人向け: Search LiveとGemini Liveで提供

開発者向け: 堅牢な推論とタスク実行

3.1 Flash Liveの全体的な品質を向上させ、開発者と企業が複雑なタスクを大規模に完了できる音声ファーストエージェントを構築するためにより信頼性の高いものにしました。

ComplexFuncBench Audio(様々な制約を持つマルチステップ関数呼び出しを捉えるベンチマーク)では、以前のモデルと比較して90.8%のスコアでリードしています。

Scale AIのAudio MultiChallengeでは、Gemini 3.1 Flash Liveが「thinking」モードオンで36.1%のスコアでリードしています。このベンチマークは、実世界の音声に典型的な中断や躊躇の中での複雑な指示の理解と長期的推論を特にテストします。

3.1 Flash Liveは、より自然な対話を提供するためのトーン理解も向上しています。Gemini Enterprise for Customer Experienceでは、2.5 Flash Native Audioよりもピッチやペースなどの音響的ニュアンスの認識がさらに効果的になっています。また、ユーザーのフラストレーションや混乱の表現に対して動的に応答を調整することも向上しています。

3.1 Flash Liveにより、ノイズの多い環境で複雑なタスクを処理する音声対応エージェントを構築できます。

3.1 Flash Liveにより、音声を使ってコードを直感的に作成し、迅速に反復できます。

Verizon、LiveKit、The Home Depotなどの企業は、ワークフローにおける3.1 Flash Liveについて、改善された自然な会話を強調して肯定的なフィードバックを提供しています。

すべての人向け: より自然で直感的なインタラクション

Gemini LiveとSearch Liveでは、3.1 Flash Liveモデルが、日常的な簡単な質問から複雑な会話まで、より有用で自然な応答を提供します。

3.1 Flash Liveモデルを基盤として、Gemini Liveは以前のモデルと比較してより高速な応答を提供し、会話の流れを2倍長く追跡できるため、長時間のブレインストーミング中も思考の流れを維持できます。

3.1 Flash Liveは本質的に多言語対応であり、今週のSearch Liveのグローバル展開を可能にしています。この展開により、200以上の国と地域の人々が、好みの言語でSearchとリアルタイムのマルチモーダル会話を行えるようになりました。

今すぐGemini 3.1 Flash Liveを試す

3.1 Flash Liveで生成されるすべての音声には、SynthIDによる透かしが埋め込まれています。この知覚できない透かしは音声出力に直接織り込まれ、AI生成コンテンツの確実な検出を可能にし、誤情報の防止に役立ちます。

安全性と責任に対する私たちのアプローチの詳細については、モデルカードをご覧ください。

本日から、3.1 Flash Liveの自然さと信頼性を体験してください。皆様がどのようにインタラクションし、構築されるかを楽しみにしています。

Gemini 3.1 Flash Live:音声AIをより自然で信頼性の高いものに | Gemini | DocsDigest