Introducing GPT-5.4

claudejamodel: claude-sonnet-4-20250514

GPT-5.4の紹介

プロフェッショナルワーク向けに設計

本日、ChatGPT（GPT-5.4 Thinkingとして）、API、およびCodexでGPT-5.4をリリースします。これは、プロフェッショナルワーク向けの最も高性能で効率的なフロンティアモデルです。また、複雑なタスクで最大のパフォーマンスを求める方向けに、ChatGPTとAPIでGPT-5.4 Proもリリースします。

GPT-5.4は、推論、コーディング、エージェントワークフローにおける最新の進歩を単一のフロンティアモデルに統合しています。業界をリードするGPT-5.3-Codexのコーディング機能を組み込みながら、ツール、ソフトウェア環境、スプレッドシート、プレゼンテーション、ドキュメントを含むプロフェッショナルタスクでのモデルの動作を改善しています。

その結果、複雑な実際の作業を正確、効果的、効率的に完了し、やり取りを減らしながら求められた結果を提供するモデルが実現しました。

ChatGPTでの改善

ChatGPTでは、GPT-5.4 Thinkingが思考の事前計画を提供できるようになり、作業中に応答の途中で方向を調整し、追加のやり取りなしに必要なものにより密接に合致した最終出力に到達できます。

GPT-5.4 Thinkingは、特に高度に特定のクエリに対する深いウェブ研究も改善し、より長い思考を必要とする質問のコンテキストをより良く維持します。これらの改善により、より高品質な回答がより速く到着し、手元のタスクに関連性を保ちます。

CodexとAPIでの機能

CodexとAPIでは、GPT-5.4は、ネイティブで最先端のコンピュータ使用機能を備えてリリースする初の汎用モデルであり、エージェントがコンピュータを操作し、アプリケーション間で複雑なワークフローを実行できるようにします。

主な機能：

最大1Mトークンのコンテキストをサポートし、エージェントが長期間にわたってタスクを計画、実行、検証可能
ツール検索により、大規模なツールとコネクタのエコシステムでのモデルの動作を改善
最もトークン効率的な推論モデルとして、GPT-5.2と比較して問題解決に大幅に少ないトークンを使用

パフォーマンス比較

ベンチマーク	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (勝利または引き分け)	83.0%	70.9%	70.9%
SWE-Bench Pro (Public)	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

*以前は64.7%として報告。GPT-5.3-Codexは、元の画像解像度を保持する新しく導入されたAPIパラメータで74.0%を達成。

ナレッジワーク

GPT-5.2の一般的な推論機能を基盤として、GPT-5.4はプロフェッショナルにとって重要な実世界のタスクで、さらに一貫性があり洗練された結果を提供します。

44の職業にわたってエージェントの明確に指定されたナレッジワーク能力をテストするGDPvalで、GPT-5.4は新たな最先端を達成し、83.0%の比較で業界プロフェッショナルと同等またはそれを上回る結果を示しました（GPT-5.2は70.9%）。

顧客の声

Mercor CEO Brendan Foody氏：

"GPT-5.4は私たちが試した中で最高のモデルです。プロフェッショナルサービス業務のモデルパフォーマンスを測定するAPEX-Agentsベンチマークで、現在リーダーボードのトップに位置しています。スライドデッキ、財務モデル、法的分析などの長期的成果物の作成に優れ、競合するフロンティアモデルよりも高速かつ低コストで最高のパフォーマンスを提供します。"

特定分野での改善

GPT-5.4のスプレッドシート、プレゼンテーション、ドキュメントの作成・編集能力の向上に特に注力しました：

スプレッドシートモデリング：ジュニア投資銀行アナリストが行うようなタスクで平均スコア87.3%（GPT-5.2は68.4%）
プレゼンテーション：より強い美学、より大きな視覚的多様性、より効果的な画像生成により、人間の評価者がGPT-5.2よりもGPT-5.4のプレゼンテーションを68.0%の確率で好む

事実性の向上

GPT-5.4は最も事実に基づいたモデルです：

個別の主張が偽である可能性が33%低下
完全な応答にエラーが含まれる可能性が18%低下（GPT-5.2比）

コンピュータ使用とビジョン

GPT-5.4は、ネイティブなコンピュータ使用機能を持つ初の汎用モデルであり、開発者とエージェントの両方にとって大きな前進を示しています。

主要な機能

Playwrightなどのライブラリを使用したコード記述に優れる
スクリーンショットに応答したマウスとキーボードコマンドの発行
開発者メッセージによる動作の調整が可能
カスタム確認ポリシーによる安全動作の設定

ベンチマーク結果

OSWorld-Verified：75.0%の成功率（GPT-5.2の47.3%、人間のパフォーマンス72.4%を上回る）
WebArena-Verified：67.3%の成功率（GPT-5.2の65.4%）
Online-Mind2Web：92.8%の成功率（ChatGPT AtlasのAgent Modeの70.9%を上回る）

視覚的理解の改善

MMMU-Pro：81.2%の成功率（GPT-5.2の79.5%から改善）
OmniDocBench：平均エラー0.109（GPT-5.2の0.140から改善）

高解像度画像サポート

新しいoriginal image input detailレベルを導入：

最大10.24M総ピクセルまたは6000ピクセル最大寸法をサポート
high image input detailレベルは最大2.56M総ピクセルまたは2048ピクセル最大寸法をサポート

コーディング

GPT-5.4は、GPT-5.3-Codexのコーディング強度と、ツールの使用、反復、手動介入の削減が重要な長時間実行タスクで最も重要な、主要なナレッジワークとコンピュータ使用機能を組み合わせています。

パフォーマンス

SWE-Bench ProでGPT-5.3-Codexと同等またはそれを上回る性能
推論努力全体でより低いレイテンシ
Codexの**/fastモード**で最大1.5倍高速なトークン速度

新機能

実験的なCodexスキル「Playwright (Interactive)」をリリース：

CodexがWebおよびElectronアプリを視覚的にデバッグ可能
構築中のアプリをテスト可能

利用方法

ChatGPT：GPT-5.4 ThinkingまたはProを使用
Enterpriseユーザー：新しくリリースされたChatGPT for Excel add-inの使用を推奨
API：priority processingを使用して高速アクセス可能
Codex：更新されたspreadsheetおよびpresentationスキルが利用可能

Summary