公開日: 2026-03-05
概要
本日、ChatGPT(GPT‑5.4 Thinkingとして)、API、そして Codex 向けに GPT‑5.4 をリリースしました。これはプロフェッショナルな業務向けに最も高性能かつ効率的なフロンティアモデルです。さらに、複雑なタスクで最大の性能を求める方向けに、ChatGPT と API で GPT‑5.4 Pro も提供します。
GPT‑5.4 は、推論、コーディング、エージェントワークフローにおける最近の進歩を一つのフロンティアモデルに統合しています。GPT‑5.3‑Codex の業界をリードするコーディング能力を取り込みつつ、ツールやソフトウェア環境、スプレッドシート、プレゼンテーション、ドキュメントといった専門的な業務領域での動作を改善しています。その結果、複雑な実務をより正確かつ効果的、効率的に遂行し、往復のやり取りを減らして要求どおりの成果を提供します。
主な改善点
- ChatGPT における新機能: GPT‑5.4 Thinking は応答中に「思考の計画(upfront plan of its thinking)」を提示できるようになり、応答途中で方針を修正して最終出力をより要望に合致させられます。
- 深層ウェブリサーチの改善: 非常に特異なクエリに対する調査力が向上し、長時間の思考が必要な質問に対して文脈を保持する能力が改善されました。
- ネイティブなコンピュータ操作機能(API / Codex): エージェントがコンピュータを直接操作し、アプリケーション間で複雑なワークフローを実行できる最初の汎用モデルです。
- ロングホライズン対応: 最大 1M tokens のコンテキストをサポートし、長期にわたる計画・実行・検証が可能です。
- ツール検索(tool search): 多数のツールやコネクタの中から適切なものを効率よく見つけて使用できる能力を向上させました。
- トークン効率の改善: GPT‑5.2 と比べて推論あたりのトークン使用量が大幅に減少し、速度向上とコスト低減に寄与します。
これらの改良により、より信頼性の高いエージェント、高速な開発ワークフロー、ChatGPT/API/Codex 全体での高品質な出力が可能になります。
ベンチマーク(モデル比較)
| 指標 | GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 |
|---|
| GDPval (wins or ties) | 83.0% | 70.9% | 70.9% |
| SWE-Bench Pro (Public) | 57.7% | 56.8% | 55.6% |
| OSWorld-Verified | 75.0% | 74.0%* | 47.3% |
| Toolathlon | 54.6% | 51.9% | 46.3% |
| BrowseComp | 82.7% | 77.3% | 65.8% |
*以前は 64.7% と報告されていました。GPT‑5.3‑Codex は、画像の元解像度を保持する新しい API パラメータを使うと 74.0% を達成します。
知識作業(Knowledge work)
GPT‑5.2 の一般的な推論能力を基盤に、GPT‑5.4 はプロが行う実務タスクでさらに一貫して洗練された成果を出します。GDPval(44 の職業領域にわたる、よく定義された知識作業を評価)では、GPT‑5.4 が新たな最先端を達成し、比較の 83.0% で業界の専門家と同等かそれ以上の結果を示しました(GPT‑5.2 は 70.9%)。
GDPval のタスクは、営業用プレゼン、会計スプレッドシート、緊急診療スケジュール、製造図、短い動画など、実際の仕事成果物の作成を要求します。推論の強度は GPT‑5.4 が xhigh、GPT‑5.2 が heavy に設定されました(ChatGPT 内ではやや低い設定)。
社外の評価コメント例:
- “GPT‑5.4 is the best model we’ve ever tried... top performance while running faster and at a lower cost than competitive frontier models.” — Brendan Foody, CEO at Mercor
特にスプレッドシート、プレゼンテーション、ドキュメントの作成・編集能力に注力しました。内部ベンチマークでは、ジュニア投資銀行アナリストの業務に相当するスプレッドシートモデリングで平均スコア 87.3%(GPT‑5.2 は 68.4%)を記録。プレゼン評価でも、ヒューマンレイターは GPT‑5.4 の生成したプレゼンを 68.0% の割合で GPT‑5.2 より好みました(美的側面、ビジュアルの多様性、画像生成の有効活用が理由)。
また、誤情報・虚偽(hallucinations)を低減する取り組みを継続しており、ユーザーが指摘した事実誤りに関する匿名化されたプロンプト集合において、GPT‑5.4 の個々の主張は GPT‑5.2 と比べて 33% 偽である可能性が低く、応答全体が誤りを含む確率は 18% 低くなっています。
コンピュータ操作とビジョン(Computer use and vision)
GPT‑5.4 はネイティブなコンピュータ操作能力を備えた初の汎用モデルであり、ウェブサイトやソフトウェアシステム上で実際のタスクを完遂するエージェント構築において大きな前進です。主なポイント:
- Playwright のようなライブラリを使ったコンピュータ操作コードの生成、スクリーンショットを受けてマウス/キーボード操作を行う指示の発行に優れています。
- 開発者メッセージで挙動を制御可能で、リスク許容度に応じたカスタム確認ポリシーで安全挙動の設定もできます。
- ツール検索により、多数のツール・コネクタ群の中から適切なツールを効率的に見つけ出すことができます。
代表的なベンチマーク結果:
- OSWorld-Verified(デスクトップ環境のスクリーンショットとキーボード/マウス操作でのナビゲーション): GPT‑5.4 は 75.0% を達成。GPT‑5.2 の 47.3% を大きく上回り、人間パフォーマンス(72.4%)も上回りました。
- WebArena-Verified(ブラウザ操作): DOM とスクリーンショット両方での操作で 67.3% を達成(GPT‑5.2 は 65.4%)。
- Online-Mind2Web(ブラウザ、スクリーンショットのみ): 92.8%(ChatGPT Atlas の Agent Mode は 70.9%)。
ツールの「yield(イールド)」について: アシスタントがツールの応答待ちの状態に入る回数を指し、同時並列でツールが呼ばれる場面ではレイテンシの代理指標として有用です(3 つのツールが並列に呼ばれ、その後さらに 3 つが並列に呼ばれると、yield は 2 になります)。
ユースケース例:
- メール送信やカレンダー登録: ブラウザインターフェースのスクリーンショットを解釈し、座標ベースのクリックで UI 要素とやり取りできます。
- 大量データ入力: UI 操作や自動化ワークフローの実行が得意です。
ビジョン能力の改善:
- MMMU-Pro(視覚理解・推論テスト、reasoning effort=xhigh): GPT‑5.4 は 81.2%(GPT‑5.2 は 79.5%)。
- OmniDocBench(文書解析、reasoning effort=none): 平均誤差 0.109(GPT‑5.2 は 0.140)。これは低コスト・低レイテンシの設定での性能を反映します。
画像入力の高解像度対応:
- original image input detail レベル: 最大 10.24M 総ピクセルまたは最大辺 6000 ピクセル(いずれか小さい方)までのフルフェデリティをサポート。
- high image input detail レベル: 最大 2.56M 総ピクセルまたは最大辺 2048 ピクセルまでサポート。
API ユーザーの早期テストでは、original/high detail 使用時にローカリゼーション、画像理解、クリック精度の大きな改善を観察しています。
顧客コメント例:
- “GPT‑5.4 achieved a 95% success rate on the first attempt and 100% within three attempts... completed sessions ~3x faster while using ~70% fewer tokens...” — Dod Fraser, CEO at Mainstay
API では、更新された computer tool を通じてこれらの能力にアクセスできます。推奨ベストプラクティスはドキュメントをご覧ください(opens in a new window)。
コーディング
GPT‑5.4 は GPT‑5.3‑Codex のコーディング力を取り込みつつ、知識作業やコンピュータ操作能力を統合しており、ツールを使いながら長時間にわたるタスクでより少ない手動介入で作業を進められます。
- SWE-Bench Pro では GPT‑5.4 が GPT‑5.3‑Codex と同等かそれ以上の性能を示し、推論強度に対してより低レイテンシです。
- レイテンシ見積りはプロダクション挙動のオフラインシミュレーションに基づき、ツール呼び出し時間(コード実行時間)、サンプリングトークン、入力トークンを考慮しています。実際のレイテンシは環境により大きく異なります。
- Codex で /fast モードをオンにすると、GPT‑5.4 はトークン速度が最大 1.5x 速くなります。同じモデル・同じ知能で単に処理が高速化されます。
- API では priority processing を使うことで同様の高速性を得られます。
GPT‑5.4 は複雑なフロントエンドタスクに強く、より美的で機能的な結果を生成します。デモとして、ビジュアルデバッグやブラウザでのプレイテストを行える実験的な Codex スキル「Playwright (Interactive)」を公開します。これにより、Codex はウェブ/Electron アプリを視覚的にデバッグでき、開発中のアプリをその場でテストすることも可能です。
例: 軽く指定したプロンプトから GPT‑5.4 を使って作成したテーマパークシミュレーションゲーム。Playwright Interactive を用いたブラウザ上でのプレイテスト、画像生成による等角投影アセット等を組み合わせ、タイル配置、アトラクションと景観の構築、来場者のパスファインディング、列処理、ライドサイクルなどを含むシミュレーションが実現されました。
利用方法
- ChatGPT: GPT‑5.4 Thinking(および Pro)を選択して機能を試せます。
- エンタープライズのお客様には、本日同時リリースした ChatGPT for Excel アドイン(opens in a new window)を推奨します。
- Codex / API: スプレッドシートやプレゼンテーションスキルの更新版を利用可能です。コンピュータ操作機能は更新された computer tool とドキュメント(opens in a new window)を参照してください。
おわりに
GPT‑5.4 は、より高品質で高速かつコスト効率の良い実務遂行を目指して設計されたモデルです。より信頼できるエージェント、開発者のスピード向上、そして専門的な出力の全体的な改善を通じて、実際の業務での有用性を大幅に高めます。