openaijamodel: gpt-5-mini-2025-08-07

GPT‑5.4 mini と nano の紹介

リリース概要

2026年3月17日、OpenAI は小型モデルとしては最も高性能な GPT‑5.4 mini と GPT‑5.4 nano を発表しました。これらは GPT‑5.4 の長所を保持しつつ、より高速かつ効率的に動作するよう最適化されており、高スループットのワークロード向けに設計されています。

GPT‑5.4 mini はコーディング、推論、マルチモーダル理解、ツール利用で GPT‑5 mini を大幅に上回り、かつ動作が 2x 以上高速です。SWE‑Bench Pro や OSWorld‑Verified を含むいくつかの評価では、より大きな GPT‑5.4 に近い性能を示します。
GPT‑5.4 nano は最も小さく最も低コストな GPT‑5.4 系モデルで、速度とコストが最重要のタスク向けです。GPT‑5 nano に対する有意なアップグレードであり、分類、データ抽出、ランキング、単純な補助タスクを担うコーディング用サブエージェントに推奨します。

これらのモデルは、レイテンシが製品体験を直接左右するワークロード向けに作られています：応答性が求められるコーディングアシスタント、迅速に補助タスクを完了するサブエージェント、スクリーンショットを取得・解釈するコンピュータ利用システム、および画像上でリアルタイムに推論するマルチモーダルアプリケーションなどです。こうした場面では、最良のモデルは必ずしも最大のモデルではなく、迅速に応答しツールを確実に使え、なおかつ複雑な専門タスクでも良好な性能を発揮するモデルです。

主なベンチマーク（抜粋）

ベンチマーク	GPT‑5.4 (xhigh)	GPT‑5.4 mini (xhigh)	GPT‑5.4 nano (xhigh)	GPT‑5 mini (high¹)
SWE‑Bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal‑Bench 2.0	75.1%	60.0%	46.3%	38.2%
Toolathlon	54.6%	42.9%	35.5%	26.9%
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
OSWorld‑Verified	75.0%	72.1%	39.0%	42.0%

¹ GPT‑5 mini に対して利用可能な最高の reasoning_effort は high です。

顧客からの声

「GPT‑5.4 mini はこのクラスのモデルとして堅実なエンドツーエンド性能を提供します。評価では複数の出力タスクと引用の想起（citation recall）で競合モデルを上回るか同等の結果を、はるかに低いコストで示しました。大きな GPT‑5.4 モデルよりも高いエンドツーエンド合格率と強い情報源帰属を達成しました。」

— Aabhas Sharma, CTO at Hebbia

その他のテスター企業（抜粋）：Hebbia、CodeRabbit、Mercor、GitHub、Rox、Notion、Whoop、Perplexity

コーディング

GPT‑5.4 mini と GPT‑5.4 nano は、反復が早いコーディングワークフローで特に有効です。対象を絞った編集、コードベースのナビゲーション、フロントエンド生成、デバッグループなどを低レイテンシで処理でき、より高速かつ低コストで完了するコーディングタスクに適しています。

ベンチマークでは、GPT‑5.4 mini は同等のレイテンシ領域で GPT‑5 mini を一貫して上回り、実行速度が大幅に速いにもかかわらず GPT‑5.4 と近い合格率を達成しており、コーディングワークフローにおける性能あたりレイテンシのトレードオフが非常に良好です。

レイテンシ推定はプロダクションでのモデル挙動の観察とオフラインのシミュレーションに基づきます。推定値はツール呼び出し時間（コード実行時間）、サンプルトークン、入力トークンを考慮していますが、実際のレイテンシは大きく変動する可能性があり、シミュレーションで捕捉できない多くの要因に依存します。コストは執筆時点の API 価格に基づく見積もりであり、将来的に変わる可能性があります。

サブエージェント（Subagents）

GPT‑5.4 mini は、異なるサイズのモデルを組み合わせるシステムに適しています。例えば Codex では、より大きなモデル（例：GPT‑5.4）が計画、調整、最終判断を行い、GPT‑5.4 mini をサブエージェントとして並列に割り当てて、コードベースの検索、大きなファイルのレビュー、補助文書の処理などの狭いサブタスクを処理させることができます。

サブエージェントの仕組みについてはドキュメントで Learn how subagents work in Codex を参照してください（opens in a new window）。

このパターンは、小型モデルが高速かつ高性能になるほど有用性が増します。すべてを一つのモデルに任せる代わりに、より大きなモデルが方針決定を行い、小さなモデルが大規模に素早く実行するシステムを構成できます。GPT‑5.4 mini はそのスタイルのワークフローにおける最も強力な mini モデルです。

コンピュータ利用（Computer use）

GPT‑5.4 mini はマルチモーダルタスク、特にコンピュータ利用に関連するタスクで強みを発揮します。密なユーザーインターフェースのスクリーンショットを迅速に解釈してコンピュータ利用タスクを高速に完了できます。OSWorld‑Verified では GPT‑5.4 mini が GPT‑5.4 に迫る性能を示し、GPT‑5 mini を大きく上回っています。

利用可能性と価格

GPT‑5.4 mini は本日より API、Codex、ChatGPT で利用可能です。
- API：テキストおよび画像入力、ツール利用、function calling、web search、file search、computer use、skills をサポート。コンテキストウィンドウは 400k。価格は入力 $0.75 / 1M トークン、出力 $4.50 / 1M トークン。
- Codex：Codex アプリ、CLI、IDE 拡張、Web で利用可能。GPT‑5.4 のクォータの 30% しか使わないため、より単純なコーディングタスクを約 1/3 のコストで素早く処理できます。Codex は推論負荷の低い処理を安価な GPT‑5.4 mini サブエージェントに委譲できます。
- ChatGPT：Free および Go ユーザーは + メニューの “Thinking” 機能を通じて利用可能。その他のユーザーでは、GPT‑5.4 Thinking のレートリミット回避策として GPT‑5.4 mini が利用されます。
GPT‑5.4 nano は API のみで提供され、価格は入力 $0.20 / 1M トークン、出力 $1.25 / 1M トークン。

モデルのセーフガードに関する詳細は、Deployment Safety Hub の System Card addendum をご確認ください（opens in a new window）。

追加ベンチマーク（カテゴリ別、抜粋）

コーディング

ベンチマーク	GPT‑5.4 (xhigh)	GPT‑5.4 mini (xhigh)	GPT‑5.4 nano (xhigh)	GPT‑5 mini (high¹)
SWE‑bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal‑Bench 2.0	75.1%	60.0%	46.3%	38.2%

ツール呼び出し（Tool‑calling）

ベンチマーク	GPT‑5.4 (xhigh)	GPT‑5.4 mini (xhigh)	GPT‑5.4 nano (xhigh)	GPT‑5 mini (high¹)
MCP Atlas	67.2%	57.7%	56.1%	47.6%
Toolathlon	54.6%	42.9%	35.5%	26.9%
τ2‑bench (telecom)	98.9%	93.4%	92.5%	74.1%

知能（Intelligence）

ベンチマーク	GPT‑5.4 (xhigh)	GPT‑5.4 mini (xhigh)	GPT‑5.4 nano (xhigh)	GPT‑5 mini (high¹)
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
HLE w/ tool	52.1%	41.5%	37.7%	31.6%
HLE w/o tools	39.8%	28.2%	24.3%	18.3%

マルチモーダル / ビジョン / CUA

ベンチマーク	GPT‑5.4 (xhigh)	GPT‑5.4 mini (xhigh)	GPT‑5.4 nano (xhigh)	GPT‑5 mini (high¹)
OSWorld‑Verified	75.0%	72.1%	39.0%	42.0%
MMMUPro w/ Python	81.5%	78.0%	69.5%	74.1%
MMMUPro	81.2%	76.6%	66.1%	67.5%
OmniDocBench 1.5 (no tools)² — lower is better	0.109	0.1263	0.2419	0.1791

ロングコンテキスト

ベンチマーク	GPT‑5.4 (xhigh)	GPT‑5.4 mini (xhigh)	GPT‑5.4 nano (xhigh)	GPT‑5 mini (high¹)
OpenAI MRCR v2 8‑needle 64K–128K	86.0%	47.7%	44.2%	35.1%
OpenAI MRCR v2 8‑needle 128K–256K	79.3%	33.6%	33.1%	19.4%
Graphwalks BFS 0K–128K	93.1%	76.3%	73.4%	73.4%
Graphwalks parents 0–128K (accuracy)	89.8%	71.5%	50.8%	64.3%

² OmniDocBench は全体編集距離（Overall Edit Distance）。OmniDocBench は低コスト・低レイテンシ性能を反映するために reasoning_effort を none に設定して実行しました。

注記

レイテンシ推定はプロダクション挙動の観察とオフラインシミュレーションに基づくため、実運用では大きく異なる可能性があります。
コストは執筆時点の API 価格に基づく推定であり、将来的に変更される可能性があります。
GPT‑5 mini に対して利用可能な最高の reasoning_effort は high です。

2026 — Author: OpenAI

関連の記事や続報は OpenAI のブログでご確認ください。

Introducing GPT-5.4 mini and nano

要約

Summary

Key Points

Practical guidance for engineers

翻訳

リリース概要

主なベンチマーク（抜粋）

顧客からの声

コーディング

サブエージェント（Subagents）

コンピュータ利用（Computer use）

利用可能性と価格

追加ベンチマーク（カテゴリ別、抜粋）

コーディング

ツール呼び出し（Tool‑calling）

知能（Intelligence）

マルチモーダル / ビジョン / CUA

ロングコンテキスト

注記