ClaudeOpenAI NewsMay 7, 2026, 10:00 AM

Advancing voice intelligence with new models in the API

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-haiku-4-5

Advancing voice intelligence with new models in the API

Key Points

  • Three new realtime audio models with reasoning and translation
  • Context window expanded to 128K tokens for complex conversations
  • Live translation across 70+ languages with real-time transcription

Summary

OpenAI has released three new realtime audio models that enable developers to build sophisticated voice applications with reasoning, translation, and transcription capabilities. These models move beyond simple call-and-response interactions toward intelligent voice agents that can understand context, use tools, and take action during conversations.

Key Points

  • GPT-Realtime-2: First voice model with GPT-5-class reasoning for complex requests, featuring adjustable reasoning levels (minimal to xhigh), preambles, parallel tool calls, and stronger recovery behavior
  • GPT-Realtime-Translate: Live translation model supporting 70+ input languages to 13 output languages, enabling real-time multilingual conversations
  • GPT-Realtime-Whisper: Streaming speech-to-text that transcribes speech live as speakers talk

Capabilities

  • Context window expanded from 32K to 128K tokens for longer, more coherent sessions
  • Improved domain understanding for specialized terminology and proper nouns
  • Controllable tone and delivery for appropriate emotional responses
  • Parallel tool execution with audible status updates
  • Better handling of corrections and interruptions

Performance

  • GPT-Realtime-2 (high) scores 15.2% higher on Big Bench Audio for audio intelligence
  • GPT-Realtime-2 (xhigh) scores 13.8% higher on Audio MultiChallenge for instruction following

Use Cases

Developers can build voice-to-action systems (reasoning through requests), systems-to-voice (proactive guidance), and voice-to-voice (multilingual support) applications.

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-haiku-4-5

APIの新しいモデルで音声インテリジェンスを進化させる

音声インテリジェンスを進化させる新しいモデル

推論、翻訳、文字起こしができるリアルタイム音声モデルの新世代

開発者向けのAPIに3つの新しい音声モデルを導入し、音声アプリの新しいクラスを実現します。これらのモデルにより、開発者はより自然に感じられ、より知的に応答し、リアルタイムで行動する音声体験を構築できます:

  • GPT‑Realtime‑2 - GPT‑5クラスの推論能力を備えた初の音声モデル。より難しいリクエストに対応し、会話を自然に進めることができます。
  • GPT‑Realtime‑Translate - 70以上の入力言語から13の出力言語へのライブ翻訳を、話者のペースに合わせて実現する新しい翻訳モデル。
  • GPT‑Realtime‑Whisper - 話者が話している間にリアルタイムで音声を文字起こしする新しいストリーミング音声テキスト変換。

GPT-Realtime-2を試す

セッションを開始して、GPT-Realtime-2と自然に会話してください。

何を聞くことができますか?

セッションを開始した後、以下のいずれかを試してください:

  • 今夜、急遽ディナーをホストしています。30分、ベジタリアンの友人2人、キノコ嫌いな人1人、小さなキッチンがあります。シンプルなメニューを計画するのを手伝ってください。
  • 日本のライブイベントにゲストを迎えています。日本語で温かく自然なウェルカムスピーチをしてください。ホストが何か特別なことを始めるような感じで。
  • 注文番号はOrbit-742Qです。確認できるように明確に繰り返してください。
  • チームに立ち上げマイルストーンを達成したことを伝える練習を手伝ってください。まず静かな自信を持って言い、次により興奮を込めて言ってください。
  • ロードトリップ用にトリビアを計画しています。一見シンプルに聞こえるが実は難しい3つの問題を出してください。その後、各答えを1文で説明してください。

このデモは時間制限があります。使用することで、OpenAIの利用規約に同意し、プライバシーポリシーを確認したものとします。

音声インターフェースとしての音声

音声はソフトウェアを使用する最も自然な方法の1つになりつつあります。運転中にヘルプを求めたり、空港を歩きながら旅行計画を変更したり、好みの言語でサポートを受けたり、入力を停止することなくタスクを進めたりできます。

しかし、有用な音声製品を構築するには、高速なターンテイキングや自然な音声以上のものが必要です。音声エージェントは、誰かの意図を理解し、コンテキストを追跡し、リクエストが変わった場合に回復し、会話の継続中にツールを使用し、その瞬間に適切な方法で応答する必要があります。

私たちが立ち上げるモデルは、リアルタイムオーディオを単純な呼び出しと応答から、実際に機能する音声インターフェース(聞く、推論する、翻訳する、文字起こしする、会話が展開するにつれて行動する)へと進化させます。

音声AIの3つの新しいパターン

Voice-to-action(音声から行動へ)

人々が必要なものを説明でき、システムがリクエストを推論し、ツールを使用し、タスクを完了できます。例えば、Zillowは以下のようなリクエストを聞いて、推論し、行動できるアシスタントを構築しています:「BuyAbility内の住宅を見つけて、繁忙街を避け、土曜日のツアーをスケジュールしてください。」

Systems-to-voice(システムから音声へ)

ソフトウェアがコンテキストをライブスポークンガイダンスに変換できます。例えば、旅行アプリは旅行者に積極的に以下のように伝えることができます:「到着便が遅延していますが、接続便には間に合います。新しいゲートを見つけ、ターミナルを通る最速ルートをマップし、荷物は転送される予定です。」

Voice-to-voice(音声から音声へ)

AIは言語、タスク、または変化するコンテキストを超えてライブ会話を継続するのに役立ちます。例えば、Deutsche Telekom は顧客が最も快適に使用できる言語で話すことができ、モデルが会話をリアルタイムで翻訳する音声サポート体験を構築しています。

これらのパターンは一緒に機能することもできます。Priceline は旅行者が音声で旅全体を管理できる未来に向かって取り組んでいます:フライトとホテルを会話的に検索し、フライト遅延後のホテル予約調整や TSA 待機時間のリアルタイム更新などの変更に対応し、旅行者が現地にいるときに会話を翻訳します。

リアルタイム音声:音声モデルが推論し行動するのを支援

GPT‑Realtime‑2 は、モデルがリクエストを推論し、ツールを呼び出し、修正や割り込みに対応し、その瞬間に適切な方法で応答しながら、会話を進め続けるライブ音声インタラクション向けに構築されています。

主な機能

プリアンブル

開発者は「確認させてください」や「少々お待ちください」などの短いフレーズをメイン応答の前に有効にできるため、ユーザーはエージェントがリクエストに取り組んでいることを知ることができます。

並列ツール呼び出しとツール透明性

モデルは複数のツールを同時に呼び出し、「カレンダーを確認しています」や「今それを調べています」などのフレーズでそれらのアクションを可聴化できるため、エージェントはタスクを完了しながら応答性を保つことができます。

より強力な回復動作

モデルは「現在それで問題が発生しています」などと言うことで、より優雅に回復でき、サイレント失敗や会話の中断を避けられます。

エージェントワークフロー向けの長いコンテキスト

コンテキストウィンドウを 32K から 128K に増やし、より長く一貫性のあるセッションと、より複雑なタスクフローをサポートします。

より強力なドメイン理解

モデルは専門用語、固有名詞、医療用語、および本番環境で重要なその他の語彙をより良く保持します。

より制御可能なトーンと配信

モデルはトーンをより良く調整でき、問題を解決しながら落ち着いて話したり、ユーザーがイライラしているときに共感的に話したり、成功したアクションを確認するときに陽気に話したりできます。

調整可能な推論努力

開発者は最小、低、中、高、超高の推論レベルから選択でき、デフォルトは低です。これにより、単純なインタラクションの低レイテンシーと複雑なリクエストのより慎重な推論のバランスが取れます。

パフォーマンス向上

本番音声エージェントに密接にマップするオーディオ評価で成果が表れています:

  • GPT‑Realtime‑2 (high) は Big Bench Audio でオーディオインテリジェンスで GPT‑Realtime‑1.5 より 15.2% 高いスコアを獲得しています。
  • GPT‑Realtime‑2 (xhigh) は Audio MultiChallenge で命令追従で 13.8% 高いスコアを獲得し、GPT‑Realtime‑1.5 を上回り、ライブ会話でより強力な推論、コンテキスト管理、制御を示しています。

Big Bench Audio はオーディオ入力をサポートする言語モデルの難しい推論能力を評価します。

Audio MultiChallenge は音声対話システムのマルチターン会話インテリジェンスを評価し、命令追従、コンテキスト統合、自己一貫性、および自然な音声修正の処理を含みます。

ユースケース

GPT‑Realtime‑2 の魔法は、さまざまなユースケースで表れています:

  • 戦略的推論
  • トーンと表現力
  • 空間推論
  • 英数字
  • 論理パズル