GPT-5.4 mini と nano の紹介
コーディングとサブエージェント向けに最適化された高速で効率的なモデル
本日、私たちはこれまでで最も高性能な小型モデルである GPT-5.4 mini と nano をリリースします。これらのモデルは、大容量ワークロード向けに設計された、より高速で効率的なモデルに GPT-5.4 の多くの強みをもたらします。
GPT-5.4 mini は、コーディング、推論、マルチモーダル理解、ツール使用において GPT-5 mini を大幅に改善し、2倍以上高速に動作します。また、SWE-Bench Pro や OSWorld-Verified を含む複数の評価において、より大きな GPT-5.4 モデルの性能に近づいています。
GPT-5.4 nano は、速度とコストが最も重要なタスク向けの GPT-5.4 の最小かつ最安価なバージョンです。これも GPT-5 nano からの大幅なアップグレードです。分類、データ抽出、ランキング、およびより単純な支援タスクを処理するコーディングサブエージェントに推奨します。
これらのモデルは、レイテンシが製品体験を直接左右するワークロード向けに構築されています:
- レスポンシブな感覚が必要なコーディングアシスタント
- 支援タスクを迅速に完了するサブエージェント
- スクリーンショットをキャプチャして解釈するコンピューター使用システム
- リアルタイムで画像を推論できるマルチモーダルアプリケーション
これらの設定では、最良のモデルは多くの場合最大のものではありません。迅速に応答し、ツールを確実に使用し、複雑な専門的タスクでも良好なパフォーマンスを発揮できるモデルです。
パフォーマンス比較
| ベンチマーク | GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) |
|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
¹ GPT-5 mini で利用可能な最高の reasoning_effort は 'high' です。
顧客の声
ワークフローで GPT-5.4 mini と nano をテストした顧客からの声:
"GPT-5.4 mini は、このクラスのモデルとして強力なエンドツーエンドパフォーマンスを提供します。私たちの評価では、複数の出力タスクと引用リコールにおいて、はるかに低いコストで競合モデルと同等またはそれを上回る結果を示しました。また、より大きな GPT-5.4 モデルよりも高いエンドツーエンド合格率と強力なソース帰属を達成しました。" — Hebbia CTO、Aabhas Sharma
コーディング
GPT-5.4 mini と nano は、高速な反復から恩恵を受けるコーディングワークフローで特に効果的です。これらのモデルは、対象を絞った編集、コードベースナビゲーション、フロントエンド生成、デバッグループを低レイテンシで処理し、より高速で低コストで完了する必要があるコーディングタスクに適しています。
ベンチマークでは、GPT-5.4 mini は同様のレイテンシで GPT-5-mini を一貫して上回り、はるかに高速に動作しながら GPT-5.4 レベルの合格率に近づき、コーディングワークフローにおいて最強のパフォーマンス対レイテンシトレードオフの一つを提供します。
サブエージェント
GPT-5.4 mini は、異なるサイズのモデルを組み合わせるシステムにも適しています。例えば Codex では、GPT-5.4 のような大きなモデルが計画、調整、最終判断を処理し、コードベースの検索、大きなファイルのレビュー、支援文書の処理など、より狭いサブタスクを並行して処理する GPT-5.4 mini サブエージェントに委任できます。
Codex でのサブエージェントの動作について詳しく学ぶ
このパターンは、小さなモデルがより高速で高性能になるにつれて、より有用になります。すべてに一つのモデルを使用する代わりに、開発者は大きなモデルが何をするかを決定し、小さなモデルが大規模に迅速に実行するシステムを構成できます。GPT-5.4 mini は、このスタイルのワークフローにおける私たちの最強の mini モデルです。
コンピューター使用
GPT-5.4 mini は、特にコンピューター使用に関連するマルチモーダルタスクでも優秀です。このモデルは、密度の高いユーザーインターフェースのスクリーンショットを迅速に解釈し、コンピューター使用タスクを速度をもって完了できます。OSWorld-Verified では、GPT-5.4 mini は GPT-5.4 に近づきながら、GPT-5 mini を大幅に上回っています。
利用可能性と価格
GPT-5.4 mini
API: 本日より利用可能
- テキストと画像入力、ツール使用、関数呼び出し、ウェブ検索、ファイル検索、コンピューター使用、スキルをサポート
- 400k コンテキストウィンドウ
- 価格: 入力トークン 100万あたり $0.75、出力トークン 100万あたり $4.50
Codex: Codex アプリ、CLI、IDE 拡張、ウェブで利用可能
- GPT-5.4 クォータの 30% のみ使用
- 約 3分の1 のコストで Codex での簡単なコーディングタスクを迅速に処理
- GPT-5.4 mini サブエージェントへの委任により、推論集約度の低い作業をより安価なモデルで実行
ChatGPT:
- Free および Go ユーザー: + メニューの "Thinking" 機能で利用可能
- その他のユーザー: GPT-5.4 Thinking のレート制限フォールバックとして利用可能
GPT-5.4 nano
API のみ: 入力トークン 100万あたり $0.20、出力トークン 100万あたり $1.25
モデルの安全対策の詳細については、Deployment Safety Hub の System Card 補遺をご確認ください。
詳細ベンチマーク結果
コーディング
| ベンチマーク | GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) |
|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
ツール呼び出し
| ベンチマーク | GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) |
|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
知能
| ベンチマーク | GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) |
|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
マルチモーダル / ビジョン / CUA
| ベンチマーク | GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) |
|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² | 0.109 | 0.1263 | 0.2419 | 0.1791 |
長いコンテキスト
| ベンチマーク | GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) |
|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
¹ GPT-5 mini で利用可能な最高の reasoning_effort は 'high' です。
² Overall Edit Distance。OmniDocBench は低コスト、低レイテンシパフォーマンスを反映するため reasoning_effort を 'none' に設定して実行されました。