Introducing GPT-5.5

claudejamodel: claude-haiku-4-5

GPT-5.5の紹介

実際の仕事のための新しいクラスのインテリジェンス

2026年4月23日、私たちはGPT-5.5をリリースしています。これは現在最も賢く、最も直感的に使用できるモデルであり、コンピュータで仕事を進める新しい方法への次のステップです。

主な特徴

GPT-5.5は、あなたが何をしようとしているのかをより速く理解し、より多くの作業を自分で実行できます。以下の分野で優れています：

コードの作成とデバッグ
オンライン調査
データ分析
ドキュメントとスプレッドシートの作成
ソフトウェアの操作
タスク完了までのツール間の移動

細かいステップを慎重に管理する代わりに、GPT-5.5に複雑で複数部分のタスクを与えて、計画、ツール使用、作業確認、曖昧性の解決、そして継続を信頼できます。

パフォーマンスの向上

特に以下の分野で大きな成果が見られます：

エージェント型コーディング
コンピュータ使用
ナレッジワーク
初期段階の科学研究

GPT-5.5は、速度を損なうことなくこのインテリジェンスの向上を実現します。より大きく、より高性能なモデルは通常、提供が遅くなりますが、GPT-5.5はGPT-5.4と同じトークンあたりのレイテンシを実現しながら、はるかに高いレベルのインテリジェンスで動作します。また、同じCodexタスクを完了するのに必要なトークン数が大幅に少なくなり、より効率的かつ高性能です。

セーフガード

GPT-5.5は、悪用を減らしながら有益な作業へのアクセスを保持するために設計された、最強のセーフガードセットでリリースされています。

以下の対策を実施しました：

完全なセーフティおよび準備フレームワークでの評価
内部および外部のレッドチーマーとの協力
高度なサイバーセキュリティと生物学的能力の対象テスト
リリース前にほぼ200の信頼できるアーリーアクセスパートナーから実際のユースケースに関するフィードバック収集

利用可能性

本日、GPT-5.5はChatGPTおよびCodexのPlus、Pro、Business、およびEnterpriseユーザーにロールアウトされています。GPT-5.5 ProはChatGPTのPro、Business、およびEnterpriseユーザーにロールアウトされています。

API展開には異なるセーフガードが必要であり、スケール提供のためのセーフティとセキュリティ要件について、パートナーと顧客と密接に協力しています。GPT-5.5とGPT-5.5 ProをAPIに非常に近い将来提供します。

モデル機能の比較

ベンチマーク	GPT-5.5	GPT-5.4	GPT-5.5 Pro	GPT-5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	-	-	69.4%	68.5%
Expert-SWE (Internal)	73.1%	68.5%	-	-	-	-
GDPval (wins or ties)	84.9%	83.0%	82.3%	82.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	-	-	78.0%	-
Toolathlon	55.6%	54.6%	-	-	-	48.8%
BrowseComp	84.4%	82.7%	90.1%	89.3%	79.3%	85.9%
FrontierMath Tier 1–3	51.7%	47.6%	52.4%	50.0%	43.8%	36.9%
FrontierMath Tier 4	35.4%	27.1%	39.6%	38.0%	22.9%	16.7%
CyberGym	81.8%	79.0%	-	-	73.1%	-

エージェント型コーディング

GPT-5.5は現在最強のエージェント型コーディングモデルです。

ベンチマーク成績

Terminal-Bench 2.0：計画、反復、ツール調整が必要な複雑なコマンドラインワークフローをテストし、最先端の精度82.7%を達成
SWE-Bench Pro：実世界のGitHub問題解決を評価し、58.6%に達し、前のモデルより多くのタスクを単一パスで完全に解決
Expert-SWE：長期的なコーディングタスク用の内部フロンティア評価で、中央値推定人間完了時間20時間、GPT-5.4を上回る

3つの評価すべてで、GPT-5.5はGPT-5.4のスコアを改善しながら、より少ないトークンを使用します。

実際の使用例

Codexでは、モデルは実装とリファクタリングからデバッグ、テスト、検証に至るまでのエンジニアリング作業を引き受けることができます。

初期テストでは、GPT-5.5は実際のエンジニアリング作業が依存する動作、例えば大規模なシステム全体でのコンテキスト保持、曖昧な障害の推論、ツールでの仮定の確認、周囲のコードベース全体での変更の実行に優れていることが示唆されています。

ユーザーフィードバック

Dan Shipper（Every創業者兼CEO）：

「これは私が使用した最初のコーディングモデルで、真摯な概念的明確性を持っています。」

アプリをローンチした後、彼は数日間デバッグに費やしてから、最高のエンジニアの1人を連れてシステムの一部を書き直しました。GPT-5.5をテストするために、彼は事実上時間を巻き戻しました：モデルは壊れた状態を見て、エンジニアが最終的に決定したのと同じ種類の書き直しを生成できるでしょうか？GPT-5.4はできませんでした。GPT-5.5はできました。

Pietro Schirano（MagicPath CEO）：

「本当に高い知能を持つ誰かと一緒に働いているような感じがして、ほぼ尊敬の念さえあります。」

モデルをテストしたシニアエンジニアは、GPT-5.5がGPT-5.4とClaude Opus 4.7よりも推論と自律性で著しく強いと述べました。明示的なプロンプトなしに問題を事前に検出し、テストとレビューのニーズを予測します。

NVIDIA エンジニア：

「GPT-5.5へのアクセスを失うことは、腕を切断されたような感じです。」

ナレッジワーク

GPT-5.5をコーディングに優れたものにする同じ強みは、コンピュータでの日常的な作業にも強力です。モデルは意図をより良く理解できるため、ナレッジワークの完全なループをより自然に移動できます：情報の検索、重要なことの理解、ツールの使用、出力の確認、生の素材を有用なものに変換します。

Codexでの改善

Codexでは、GPT-5.5はドキュメント、スプレッドシート、スライドプレゼンテーションの生成でGPT-5.4より優れています。

アルファテスターは、運用研究、スプレッドシートモデリング、複雑なビジネス入力を計画に変換するような作業で、過去のモデルを上回ったと述べました。

Codexのコンピュータ使用スキルと組み合わせると、GPT-5.5は、モデルが実際にあなたと一緒にコンピュータを使用できるという感覚に私たちをより近づけます：画面に何があるかを見て、クリック、入力、インターフェースのナビゲート、ツール間の正確な移動。

OpenAIでの実際の使用

OpenAIのチームは既にこれらの強みを実際のワークフローで使用しています。本日、会社の85%以上がCodexを毎週使用しており、ソフトウェアエンジニアリング、財務、コミュニケーション、マーケティング、データサイエンス、プロダクト管理を含む機能全体で使用しています。

コミュニケーション：チームはGPT-5.5をCodexで使用して、6ヶ月間のスピーキングリクエストデータを分析し、スコアリングとリスクフレームワークを構築し、自動化されたSlackエージェントを検証しました。これにより、低リスクのリクエストは自動的に処理でき、高リスクのリクエストは人間のレビューにルーティングされます。

財務：チームはCodexを使用して24,771のK-1税務フォーム（合計71,637ページ）をレビューし、個人情報を除外するワークフローを使用して、前年比で2週間タスクを加速させました。

Go-to-Marketチーム：従業員は週次ビジネスレポート生成を自動化し、週5～10時間を節約しました。

ChatGPTでの改善

ChatGPTでは、GPT-5.5 Thinkingはより難しい問題への迅速なヘルプを解放し、複雑な作業をより効率的に進めるのに役立つ、より賢く簡潔な回答を提供します。

コーディング、研究、情報合成と分析、ドキュメント集約的なタスクなどの専門的な作業に優れており、特にプラグインを使用する場合に優れています。

GPT-5.5 Proでは、アーリーテスターはChatGPTが引き受けることができる作業の難易度と品質の両方で大幅な向上を見ています。レイテンシの改善により、要求の厳しいタスクにはるかに実用的になります。

GPT-5.4 Proと比較して、テスターはGPT-5.5 Proの回答が著しく包括的で、よく構成され、正確で、関連性があり、有用であることを発見しました。特にビジネス、法律、教育、データサイエンスで強いパフォーマンスを示しています。

ナレッジワークベンチマーク

GPT-5.5は、この種の作業を反映する複数のベンチマークで最先端のパフォーマンスを達成します：

GDPval：44の職業にわたるよく指定されたナレッジワークを生成するエージェントの能力をテストし、84.9%をスコア
OSWorld-Verified：モデルが独自に実際のコンピュータ環境を操作できるかどうかを測定し、78.7%に達する
Tau2-bench Telecom：複雑なカスタマーサービスワークフローをテストし、プロンプトチューニングなしで98.0%に達する
FinanceAgent：60.0%
内部投資銀行モデリングタスク：88.5%
OfficeQA Pro：54.1%

科学研究

GPT-5.5は、難しい質問に答える以上のものが必要な科学および技術研究ワークフローでも成果を示しています。

研究者は、アイデアを探索し、証拠を集め、仮定をテストし、結果を解釈し、次に何を試すかを決定する必要があります。GPT-5.5は、そのループ全体で持続するのに他のモデルより優れています。

特に、GPT-5.5はGeneBenchでGPT-5.4に対して明確な改善を示しています。

Summary