OpenAIOpenAI News2026/05/07 10:00

Advancing voice intelligence with new models in the API

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

APIで音声インテリジェンスを強化 — 新しいリアルタイム音声モデル

Key Points

  • GPT‑Realtime‑2で高度なリアルタイム推論
  • 70+言語から13言語へのライブ翻訳
  • コンテキストウィンドウを128Kに拡張

Summary

OpenAIはAPIに3つの新しいリアルタイム音声モデルを導入しました。GPT‑Realtime‑2はGPT‑5級の推論能力を備え、会話の流れを保ちながら並列ツール呼び出し、発話中の翻訳、ライブ文字起こしを実行します。GPT‑Realtime‑Translateは70以上の入力言語から13の出力言語への同時翻訳を、GPT‑Realtime‑Whisperは発話中のストリーミングSTTを提供します。エンジニアはこれらを使って音声でのアクション起動、システム→音声ガイド、言語間のライブ会話を構築できます。

Key Points

  • モデル一覧
    • GPT‑Realtime‑2:リアルタイム推論、トーン制御、並列ツール呼び出し、堅牢なリカバリ。コンテキストウィンドウを32Kから128Kに拡張。推論強度は minimal/low/medium/high/xhigh で調整可能。
    • GPT‑Realtime‑Translate:70+入力言語→13出力言語の遅延の少ないライブ翻訳。
    • GPT‑Realtime‑Whisper:発話と同時に文字起こしするストリーミングSTT。
  • 開発上の実務ポイント
    • セッション開始後に自然に会話するワークフロー(start session → 音声入力)を想定。
    • ユーザー体験向上のために「preambles」(例:“ちょっと確認します”)を導入して処理中のフィードバックを出す。
    • 並列ツール呼び出しとツール透明性を活用して、応答を保ちながら外部APIや検索を並列実行する。
    • リカバリ挙動(失敗時の明示的な応答)を組み込むことで会話が途切れないようにする。
    • 推論レベルを上げると理解力や意思決定が向上するがレイテンシが増すため、ユースケースに応じて調整する。
  • 性能と互換性
    • GPT‑Realtime‑2は音声知能評価でGPT‑Realtime‑1.5より有意に改善(Big Bench Audioで+15.2%(high)、Audio MultiChallengeで+13.8%(xhigh))。
    • 音声エージェント向けに専門用語や固有名詞の保持、トーン制御、長期コンテキスト処理が強化されている。

Quick implementation tips

  • 低遅延が重要なタスクは reasoning=low をデフォルトにし、複雑な意思決定が必要な場面で reasoning=high/xhigh を指定する。
  • ツール呼び出し時はユーザーへ短い透過的メッセージ(例:「カレンダーを確認しています」)を返してUXを維持する。
  • 翻訳はリアルタイム会話の継続を想定して設計し、入出力言語のペアと遅延要件をテストする。

References

  • 新モデル:GPT‑Realtime‑2, GPT‑Realtime‑Translate, GPT‑Realtime‑Whisper
  • 主要変更:128Kコンテキスト、並列ツール呼び出し、調整可能な推論レベル、ライブ翻訳(70+→13)

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

APIでの新モデルによる音声インテリジェンスの進化

製品リリース — 2026-05-07

新世代のリアルタイム音声モデルが登場しました。これらは話しながら推論、翻訳、文字起こしを行えるモデルです。

新しく導入されたモデル

私たちはAPIに3つの音声モデルを導入しました。これらにより、より自然で知的に応答し、リアルタイムで行動できる音声アプリが開発可能になります。

  • GPT‑Realtime‑2
    • GPT‑5‑クラスの推論能力を持つ初の音声モデル。難しい要求にも対応し、会話を自然に前へ進められます。
  • GPT‑Realtime‑Translate
    • ライブ翻訳モデル。70以上の入力言語を13の出力言語に、話者のペースに合わせて翻訳します。
  • GPT‑Realtime‑Whisper
    • ストリーミングの音声→テキスト。話し手が話すと同時に音声を逐次文字起こしします。

GPT-Realtime-2を試す

セッションを開始して、GPT‑Realtime‑2と自然に会話してみてください。

試してみるとよい質問例

  • 今夜急遽ディナーを開催する予定です。時間は30分、ベジタリアンの友人が2人、キノコが苦手な人が1人、キッチンは狭いです。簡単なメニューを計画するのを手伝ってください。
  • 日本でのライブイベントに来てくれた方々を歓迎したいです。ホストが特別な場を始めるような、温かく自然な日本語の挨拶をお願いします。
  • 注文番号は Orbit-742Q です。確認できるようにはっきりと繰り返してください。
  • チームにローンチマイルストーン達成を知らせる練習をしたいです。まずは落ち着いた自信を持った言い方で、次により興奮したトーンで言ってください。
  • ロードトリップ用のトリビアを考えています。見かけ上は簡単に見えるトリック質問を3つ出し、それぞれに対する回答を1文で説明してください。

このデモは時間限定です。利用することで、OpenAI's Terms に同意し、当社の Privacy Policy を了承したものとみなされます。


なぜ音声か

音声は人がソフトウェアを使う最も自然な方法の一つになりつつあります。運転中に助けを求めたり、空港を歩きながら旅行計画を変更したり、好みの言語でサポートを受けたり、入力を止めずにタスクを進めたりできます。ただし、有用な音声プロダクトを作るには、単に応答が速いことや自然な声を用意すること以上が必要です。音声エージェントは、発話の意図を理解し、文脈を追跡し、要求が変わったときに回復し、会話を続けながらツールを使い、場面に応じた応答を返す必要があります。

今回のモデル群は、リアルタイム音声を単なる呼応型から実際に仕事ができる音声インターフェースへと進化させます。聞く、推論する、翻訳する、文字起こしする、会話が展開する中で行動する、という一連の能力を提供します。


音声がインターフェースとして果たす役割

音声を基盤にした開発では、以下のような3つのパターンが見えています。

  • Voice-to-action
    • ユーザーが必要なことを口述すると、システムが推論してツールを使い、タスクを完了するパターン。例:Zillowは「私のBuyAbilityに合う家を探し、混雑する道路を避け、土曜日に内覧をスケジュールして」といったリクエストに応答できるアシスタントを構築しています。
  • Systems-to-voice
    • ソフトウェアがコンテキストを音声でのライブ指示に変換するパターン。例:旅行アプリが「到着便が遅延していますが、乗り継ぎは間に合います。新しいゲートを見つけ、ターミナル内の最短経路をマップし、荷物は引き続き転送される見込みです」といった形で積極的に案内することができます。
  • Voice-to-voice
    • AIが言語やタスク、変化する文脈を跨いでライブ会話を支援するパターン。例:Deutsche Telekomは顧客が最も使い慣れた言語で話しても、モデルがリアルタイムで会話を翻訳するような音声サポート体験を構築しています。

これらのパターンは組み合わせても機能します。Pricelineは、旅行者が音声だけでフライトとホテルを会話形式で検索し、フライト遅延によるホテル予約調整やTSA待ち時間のリアルタイム更新、現地での翻訳まで音声で管理できる未来を目指しています。


リアルタイム音声:推論と行動を支える機能

GPT‑Realtime‑2は、会話を進めながら要求を推論し、ツールを呼び出し、修正や割り込みに対処し、その場にふさわしい応答を行うライブ音声インタラクション向けに設計されています。主な機能は次の通りです。

  • 先置きフレーズ(Preambles)
    • 「確認しますね」「少しお待ちください」といった短いフレーズを主要応答の前に出す設定が可能で、ユーザーに処理中であることを伝えられます。
  • 並列ツール呼び出しとツールの可聴化
    • モデルは複数のツールを同時に呼び出し、「カレンダーを確認しています」「調べています」といった発話でその処理を可視化・可聴化できます。これにより、応答性を保ちつつタスクを完了できます。
  • 回復性能の向上
    • 問題が発生した際に黙って失敗するのではなく、「今それは処理が難しいようです」といった形でより優雅に会話を回復できます。
  • エージェント的ワークフローのための長いコンテキスト
    • コンテキストウィンドウを32Kから128Kへ拡張し、より長く一貫したセッションや複雑なタスクフローをサポートします。
  • ドメイン理解の強化
    • 専門用語、固有名詞、医療用語など、本番環境で重要な語彙を保持する能力が向上しています。
  • トーンと話し方の制御性の向上
    • 問題解決中は落ち着いた口調、ユーザーの苛立ちには共感的に、成功時には明るくといったトーン調整がより効果的に行えます。
  • 推論努力の調整
    • minimal、low、medium、high、xhigh の各レベルから推論強度を選択可能で、既定値は low です。単純なやり取りでは低レイテンシ、複雑なリクエストではより慎重な推論を選べます。

評価結果

これらの改善は、プロダクションの音声エージェントに近い音声評価で現れています。

  • GPT‑Realtime‑2 (high) は Big Bench Audio における音声インテリジェンスで GPT‑Realtime‑1.5 より15.2%高いスコアを記録しました。

  • GPT‑Realtime‑2 (xhigh) は Audio MultiChallenge における指示追従で GPT‑Realtime‑1.5 を上回り、13.8%高いスコアを記録しました。これらはライブ会話における推論、文脈管理、制御性の向上を示しています。

  • Big Bench Audio は音声入力をサポートする言語モデルの難しい推論能力を評価します。

  • Audio MultiChallenge (opens in a new window) は、指示追従、文脈統合、自己一貫性、自然な発話修正の扱いを含む、音声対話システムにおけるマルチターン会話知能を評価します。


適用例

GPT‑Realtime‑2の利点は多様なユースケースで発揮されます。

  • 戦略的推論
  • トーンと表現力
  • 空間的推論
  • 英数字認識(Alphanumerics)
  • 論理パズル

Loading realtime example…

APIでの新モデルによる音声インテリジェンスの進化 | OpenAI News | DocsDigest