リリース概要
2026年3月17日、OpenAI は小型モデルとしては最も高性能な GPT‑5.4 mini と GPT‑5.4 nano を発表しました。これらは GPT‑5.4 の長所を保持しつつ、より高速かつ効率的に動作するよう最適化されており、高スループットのワークロード向けに設計されています。
GPT‑5.4 mini はコーディング、推論、マルチモーダル理解、ツール利用で GPT‑5 mini を大幅に上回り、かつ動作が 2x 以上高速です。SWE‑Bench Pro や OSWorld‑Verified を含むいくつかの評価では、より大きな GPT‑5.4 に近い性能を示します。
GPT‑5.4 nano は最も小さく最も低コストな GPT‑5.4 系モデルで、速度とコストが最重要のタスク向けです。GPT‑5 nano に対する有意なアップグレードであり、分類、データ抽出、ランキング、単純な補助タスクを担うコーディング用サブエージェントに推奨します。
これらのモデルは、レイテンシが製品体験を直接左右するワークロード向けに作られています:応答性が求められるコーディングアシスタント、迅速に補助タスクを完了するサブエージェント、スクリーンショットを取得・解釈するコンピュータ利用システム、および画像上でリアルタイムに推論するマルチモーダルアプリケーションなどです。こうした場面では、最良のモデルは必ずしも最大のモデルではなく、迅速に応答しツールを確実に使え、なおかつ複雑な専門タスクでも良好な性能を発揮するモデルです。
主なベンチマーク(抜粋)
| ベンチマーク | GPT‑5.4 (xhigh) | GPT‑5.4 mini (xhigh) | GPT‑5.4 nano (xhigh) | GPT‑5 mini (high¹) |
|---|
| SWE‑Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal‑Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld‑Verified | 75.0% | 72.1% | 39.0% | 42.0% |
¹ GPT‑5 mini に対して利用可能な最高の reasoning_effort は high です。
顧客からの声
「GPT‑5.4 mini はこのクラスのモデルとして堅実なエンドツーエンド性能を提供します。評価では複数の出力タスクと引用の想起(citation recall)で競合モデルを上回るか同等の結果を、はるかに低いコストで示しました。大きな GPT‑5.4 モデルよりも高いエンドツーエンド合格率と強い情報源帰属を達成しました。」
— Aabhas Sharma, CTO at Hebbia
その他のテスター企業(抜粋):Hebbia、CodeRabbit、Mercor、GitHub、Rox、Notion、Whoop、Perplexity
コーディング
GPT‑5.4 mini と GPT‑5.4 nano は、反復が早いコーディングワークフローで特に有効です。対象を絞った編集、コードベースのナビゲーション、フロントエンド生成、デバッグループなどを低レイテンシで処理でき、より高速かつ低コストで完了するコーディングタスクに適しています。
ベンチマークでは、GPT‑5.4 mini は同等のレイテンシ領域で GPT‑5 mini を一貫して上回り、実行速度が大幅に速いにもかかわらず GPT‑5.4 と近い合格率を達成しており、コーディングワークフローにおける性能あたりレイテンシのトレードオフが非常に良好です。
レイテンシ推定はプロダクションでのモデル挙動の観察とオフラインのシミュレーションに基づきます。推定値はツール呼び出し時間(コード実行時間)、サンプルトークン、入力トークンを考慮していますが、実際のレイテンシは大きく変動する可能性があり、シミュレーションで捕捉できない多くの要因に依存します。コストは執筆時点の API 価格に基づく見積もりであり、将来的に変わる可能性があります。
サブエージェント(Subagents)
GPT‑5.4 mini は、異なるサイズのモデルを組み合わせるシステムに適しています。例えば Codex では、より大きなモデル(例:GPT‑5.4)が計画、調整、最終判断を行い、GPT‑5.4 mini をサブエージェントとして並列に割り当てて、コードベースの検索、大きなファイルのレビュー、補助文書の処理などの狭いサブタスクを処理させることができます。
サブエージェントの仕組みについてはドキュメントで Learn how subagents work in Codex を参照してください(opens in a new window)。
このパターンは、小型モデルが高速かつ高性能になるほど有用性が増します。すべてを一つのモデルに任せる代わりに、より大きなモデルが方針決定を行い、小さなモデルが大規模に素早く実行するシステムを構成できます。GPT‑5.4 mini はそのスタイルのワークフローにおける最も強力な mini モデルです。
コンピュータ利用(Computer use)
GPT‑5.4 mini はマルチモーダルタスク、特にコンピュータ利用に関連するタスクで強みを発揮します。密なユーザーインターフェースのスクリーンショットを迅速に解釈してコンピュータ利用タスクを高速に完了できます。OSWorld‑Verified では GPT‑5.4 mini が GPT‑5.4 に迫る性能を示し、GPT‑5 mini を大きく上回っています。
利用可能性と価格
モデルのセーフガードに関する詳細は、Deployment Safety Hub の System Card addendum をご確認ください(opens in a new window)。
追加ベンチマーク(カテゴリ別、抜粋)
コーディング
| ベンチマーク | GPT‑5.4 (xhigh) | GPT‑5.4 mini (xhigh) | GPT‑5.4 nano (xhigh) | GPT‑5 mini (high¹) |
|---|
| SWE‑bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal‑Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
ツール呼び出し(Tool‑calling)
| ベンチマーク | GPT‑5.4 (xhigh) | GPT‑5.4 mini (xhigh) | GPT‑5.4 nano (xhigh) | GPT‑5 mini (high¹) |
|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2‑bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
知能(Intelligence)
| ベンチマーク | GPT‑5.4 (xhigh) | GPT‑5.4 mini (xhigh) | GPT‑5.4 nano (xhigh) | GPT‑5 mini (high¹) |
|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
マルチモーダル / ビジョン / CUA
| ベンチマーク | GPT‑5.4 (xhigh) | GPT‑5.4 mini (xhigh) | GPT‑5.4 nano (xhigh) | GPT‑5 mini (high¹) |
|---|
| OSWorld‑Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
ロングコンテキスト
| ベンチマーク | GPT‑5.4 (xhigh) | GPT‑5.4 mini (xhigh) | GPT‑5.4 nano (xhigh) | GPT‑5 mini (high¹) |
|---|
| OpenAI MRCR v2 8‑needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8‑needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
² OmniDocBench は全体編集距離(Overall Edit Distance)。OmniDocBench は低コスト・低レイテンシ性能を反映するために reasoning_effort を none に設定して実行しました。
注記
- レイテンシ推定はプロダクション挙動の観察とオフラインシミュレーションに基づくため、実運用では大きく異なる可能性があります。
- コストは執筆時点の API 価格に基づく推定であり、将来的に変更される可能性があります。
GPT‑5 mini に対して利用可能な最高の reasoning_effort は high です。
2026 — Author: OpenAI
関連の記事や続報は OpenAI のブログでご確認ください。