OpenAIOpenAI NewsMay 7, 2026, 10:00 AM

Advancing voice intelligence with new models in the API

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Advancing voice intelligence with new models in the API

Key Points

  • GPT‑Realtime‑2 with GPT‑5‑class reasoning
  • Live translation: 70+ input → 13 output languages
  • 128K context, parallel tool calls

Summary

This release adds three realtime audio models to the API that enable interactive voice agents capable of reasoning, translating, transcribing, and taking actions while people speak:

  • GPT-Realtime-2 — GPT‑5‑class reasoning for live conversations, better context handling, and controllable tone/delivery.
  • GPT-Realtime-Translate — live translation from 70+ input languages into 13 output languages.
  • GPT-Realtime-Whisper — streaming speech-to-text that transcribes as users talk.

Key Points

  • Longer context window: 128K (up from 32K) to support extended agentic workflows and multi-step tasks.
  • Realtime agent features: preambles (audible “checking…” prompts), parallel tool calls, and tool transparency so actions can be announced while processing.
  • Improved robustness: stronger recovery behavior for interruptions or failures and better retention of domain-specific vocabulary and proper nouns.
  • Controllable behavior: adjustable reasoning effort (minimal, low (default), medium, high, xhigh) to balance latency vs. deliberation.
  • Evaluation gains: GPT-Realtime-2 shows +15.2% on Big Bench Audio (high) and +13.8% on Audio MultiChallenge (xhigh) vs. prior Realtime-1.5.
  • Primary patterns enabled: voice-to-action (agents that act), systems-to-voice (contextual spoken guidance), and voice-to-voice (live translation and multilingual conversation).

Engineering notes

  • Choose reasoning level based on latency requirements: use low for fast turn-taking, medium/high/xhigh for complex reasoning.
  • Use preambles and tool transparency to improve perceived responsiveness during long-running calls.
  • Design streaming integrations for progressive transcription and mid-response tool calls; expect parallel tool invocation support.
  • Use the 128K context for long sessions or multi-step workflows; plan memory and token usage accordingly.
  • Test domain terms and alphanumerics in realistic audio to validate improved retention and handling.

Where to start

  • Try GPT-Realtime-2 for interactive voice agents that must reason and act in real time.
  • Use Realtime-Translate for live cross-language voice experiences and Realtime-Whisper for low-latency STT.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

APIでの新モデルによる音声インテリジェンスの進化

製品リリース — 2026-05-07

新世代のリアルタイム音声モデルが登場しました。これらは話しながら推論、翻訳、文字起こしを行えるモデルです。

新しく導入されたモデル

私たちはAPIに3つの音声モデルを導入しました。これらにより、より自然で知的に応答し、リアルタイムで行動できる音声アプリが開発可能になります。

  • GPT‑Realtime‑2
    • GPT‑5‑クラスの推論能力を持つ初の音声モデル。難しい要求にも対応し、会話を自然に前へ進められます。
  • GPT‑Realtime‑Translate
    • ライブ翻訳モデル。70以上の入力言語を13の出力言語に、話者のペースに合わせて翻訳します。
  • GPT‑Realtime‑Whisper
    • ストリーミングの音声→テキスト。話し手が話すと同時に音声を逐次文字起こしします。

GPT-Realtime-2を試す

セッションを開始して、GPT‑Realtime‑2と自然に会話してみてください。

試してみるとよい質問例

  • 今夜急遽ディナーを開催する予定です。時間は30分、ベジタリアンの友人が2人、キノコが苦手な人が1人、キッチンは狭いです。簡単なメニューを計画するのを手伝ってください。
  • 日本でのライブイベントに来てくれた方々を歓迎したいです。ホストが特別な場を始めるような、温かく自然な日本語の挨拶をお願いします。
  • 注文番号は Orbit-742Q です。確認できるようにはっきりと繰り返してください。
  • チームにローンチマイルストーン達成を知らせる練習をしたいです。まずは落ち着いた自信を持った言い方で、次により興奮したトーンで言ってください。
  • ロードトリップ用のトリビアを考えています。見かけ上は簡単に見えるトリック質問を3つ出し、それぞれに対する回答を1文で説明してください。

このデモは時間限定です。利用することで、OpenAI's Terms に同意し、当社の Privacy Policy を了承したものとみなされます。


なぜ音声か

音声は人がソフトウェアを使う最も自然な方法の一つになりつつあります。運転中に助けを求めたり、空港を歩きながら旅行計画を変更したり、好みの言語でサポートを受けたり、入力を止めずにタスクを進めたりできます。ただし、有用な音声プロダクトを作るには、単に応答が速いことや自然な声を用意すること以上が必要です。音声エージェントは、発話の意図を理解し、文脈を追跡し、要求が変わったときに回復し、会話を続けながらツールを使い、場面に応じた応答を返す必要があります。

今回のモデル群は、リアルタイム音声を単なる呼応型から実際に仕事ができる音声インターフェースへと進化させます。聞く、推論する、翻訳する、文字起こしする、会話が展開する中で行動する、という一連の能力を提供します。


音声がインターフェースとして果たす役割

音声を基盤にした開発では、以下のような3つのパターンが見えています。

  • Voice-to-action
    • ユーザーが必要なことを口述すると、システムが推論してツールを使い、タスクを完了するパターン。例:Zillowは「私のBuyAbilityに合う家を探し、混雑する道路を避け、土曜日に内覧をスケジュールして」といったリクエストに応答できるアシスタントを構築しています。
  • Systems-to-voice
    • ソフトウェアがコンテキストを音声でのライブ指示に変換するパターン。例:旅行アプリが「到着便が遅延していますが、乗り継ぎは間に合います。新しいゲートを見つけ、ターミナル内の最短経路をマップし、荷物は引き続き転送される見込みです」といった形で積極的に案内することができます。
  • Voice-to-voice
    • AIが言語やタスク、変化する文脈を跨いでライブ会話を支援するパターン。例:Deutsche Telekomは顧客が最も使い慣れた言語で話しても、モデルがリアルタイムで会話を翻訳するような音声サポート体験を構築しています。

これらのパターンは組み合わせても機能します。Pricelineは、旅行者が音声だけでフライトとホテルを会話形式で検索し、フライト遅延によるホテル予約調整やTSA待ち時間のリアルタイム更新、現地での翻訳まで音声で管理できる未来を目指しています。


リアルタイム音声:推論と行動を支える機能

GPT‑Realtime‑2は、会話を進めながら要求を推論し、ツールを呼び出し、修正や割り込みに対処し、その場にふさわしい応答を行うライブ音声インタラクション向けに設計されています。主な機能は次の通りです。

  • 先置きフレーズ(Preambles)
    • 「確認しますね」「少しお待ちください」といった短いフレーズを主要応答の前に出す設定が可能で、ユーザーに処理中であることを伝えられます。
  • 並列ツール呼び出しとツールの可聴化
    • モデルは複数のツールを同時に呼び出し、「カレンダーを確認しています」「調べています」といった発話でその処理を可視化・可聴化できます。これにより、応答性を保ちつつタスクを完了できます。
  • 回復性能の向上
    • 問題が発生した際に黙って失敗するのではなく、「今それは処理が難しいようです」といった形でより優雅に会話を回復できます。
  • エージェント的ワークフローのための長いコンテキスト
    • コンテキストウィンドウを32Kから128Kへ拡張し、より長く一貫したセッションや複雑なタスクフローをサポートします。
  • ドメイン理解の強化
    • 専門用語、固有名詞、医療用語など、本番環境で重要な語彙を保持する能力が向上しています。
  • トーンと話し方の制御性の向上
    • 問題解決中は落ち着いた口調、ユーザーの苛立ちには共感的に、成功時には明るくといったトーン調整がより効果的に行えます。
  • 推論努力の調整
    • minimal、low、medium、high、xhigh の各レベルから推論強度を選択可能で、既定値は low です。単純なやり取りでは低レイテンシ、複雑なリクエストではより慎重な推論を選べます。

評価結果

これらの改善は、プロダクションの音声エージェントに近い音声評価で現れています。

  • GPT‑Realtime‑2 (high) は Big Bench Audio における音声インテリジェンスで GPT‑Realtime‑1.5 より15.2%高いスコアを記録しました。

  • GPT‑Realtime‑2 (xhigh) は Audio MultiChallenge における指示追従で GPT‑Realtime‑1.5 を上回り、13.8%高いスコアを記録しました。これらはライブ会話における推論、文脈管理、制御性の向上を示しています。

  • Big Bench Audio は音声入力をサポートする言語モデルの難しい推論能力を評価します。

  • Audio MultiChallenge (opens in a new window) は、指示追従、文脈統合、自己一貫性、自然な発話修正の扱いを含む、音声対話システムにおけるマルチターン会話知能を評価します。


適用例

GPT‑Realtime‑2の利点は多様なユースケースで発揮されます。

  • 戦略的推論
  • トーンと表現力
  • 空間的推論
  • 英数字認識(Alphanumerics)
  • 論理パズル

Loading realtime example…