OpenAIOpenAI NewsApr 23, 2026, 11:00 AM

Introducing GPT-5.5

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Introducing GPT-5.5 — smarter, more efficient agentic model for real work

Key Points

  • State-of-the-art agentic coding (Terminal-Bench 82.7%)
  • Matches GPT-5.4 latency while using fewer tokens
  • Stronger safeguards; API access rolling out soon

Summary

GPT-5.5 is a step-up foundation model focused on agentic reasoning and long-horizon work. It improves coding, research, data analysis, document and spreadsheet generation, and GUI/tool operation while matching GPT-5.4 per-token latency and using fewer tokens on many tasks. The release includes enhanced safety mitigations and phased rollouts in ChatGPT and Codex; API access is coming soon with additional safeguards.

Key Points

  • Agentic coding: state-of-the-art accuracy on complex CLI and planning tasks (Terminal-Bench 82.7%) and stronger end-to-end GitHub issue resolution; better at holding system-wide context, debugging, refactors, and long-running workflows.
  • Efficiency and latency: matches GPT-5.4 per-token latency in real-world serving while producing higher-quality outputs and using significantly fewer tokens on Codex tasks; reported cost advantages on external coding indices.
  • Knowledge work and tooling: improved ability to understand intent, chain tools, operate GUIs, synthesize research, build spreadsheets and slide decks, and persist across iterative workflows.
  • Safety and testing: released with OpenAI's strongest safeguards to date — internal/external red-teaming, targeted cyberbio testing, and feedback from ~200 early-access partners.
  • Rollout and access: GPT-5.5 available in ChatGPT and Codex for Plus, Pro, Business, and Enterprise users; GPT-5.5 Pro rolling out to Pro/Business/Enterprise in ChatGPT; API deployments will follow with additional safety requirements.

Practical guidance for engineers

  • Use GPT-5.5 for long-running engineering tasks (large refactors, debugging across codebases, end-to-end issue fixes) where persistence, context carrying, and tool use matter.
  • Combine with Codex for automating desktop workflows, spreadsheet modeling, and data-heavy reports; expect fewer retries and lower token usage.
  • Treat API access as enterprise-grade and expect integration requirements around safety and security when it becomes available.

Where it shines

  • Agentic workflows that require planning, tool coordination, and iteration.
  • Knowledge work that involves synthesis, analysis, and multi-step document production.
  • Early-stage scientific and technical research workflows that need persistent hypothesis testing and result interpretation.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

GPT-5.5 の紹介

2026年4月23日 — 製品リリース: GPT‑5.5 の紹介

概要

私たちは GPT‑5.5 をリリースします。これはこれまでで最も賢く、直感的に使えるモデルであり、コンピュータ上での新しい働き方に向けた次の一歩です。GPT‑5.5 はあなたの意図をより早く理解し、作業のより多くを自律的に遂行できます。コードの作成・デバッグ、オンライン調査、データ解析、ドキュメントやスプレッドシートの作成、ソフトウェア操作、そして複数ツールを横断してタスクを完了する作業に優れています。

手順を逐一管理する代わりに、煩雑で複数段階に分かれたタスクを渡して計画、ツールの利用、自己チェック、曖昧さの処理を信頼して任せることができます。エージェンシー型コーディング、コンピュータ利用、ナレッジワーク、初期の科学研究など、文脈をまたいだ推論と時間をかけたアクションが重要な領域で特に大きな成果を示します。

GPT‑5.5 は知性の向上を提供しつつ、応答速度を犠牲にしません。一般により大きく能力の高いモデルは応答が遅くなりがちですが、GPT‑5.5 は実運用下で GPT‑5.4 と同等の per-token レイテンシーを維持しつつ、より高い知能レベルで動作します。さらに同じ Codex タスクを完了する際に必要なトークン数が大幅に少なくなり、能力だけでなく効率性も向上しています。

セーフガードとテスト

今回のリリースでは、これまでで最も強固なセーフガード群を導入し、悪用リスクを低減しつつ有益な利用へのアクセスを守るよう設計しました。フルスイートの安全性と準備性フレームワークで評価し、社内外のレッドチーマーと協働、先端的なサイバーセキュリティと生物学関連能力に対する狙いを定めたテストを追加し、リリース前に約200社の信頼できる早期アクセスパートナーから実使用ケースのフィードバックを収集しました。

提供状況

今日、GPT‑5.5 は ChatGPT と Codex で Plus、Pro、Business、Enterprise ユーザーに展開中です。GPT‑5.5 Pro は ChatGPT の Pro、Business、Enterprise ユーザーに展開しています。API での配備には別のセーフガードが必要であり、スケールでの提供に関する安全要件についてパートナーやお客様と緊密に作業しています。GPT‑5.5 と GPT‑5.5 Pro を API にもまもなく導入予定です。

ベンチマーク(抜粋)

ベンチマークGPT-5.5GPT-5.4GPT-5.5 ProGPT-5.4 ProClaude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%--69.4%68.5%
Expert-SWE (Internal)73.1%68.5%----
GDPval (wins or ties)84.9%83.0%82.3%82.0%80.3%67.3%
OSWorld-Verified78.7%75.0%--78.0%-
Toolathlon55.6%54.6%---48.8%
BrowseComp84.4%82.7%90.1%89.3%79.3%85.9%
FrontierMath Tier 1–351.7%47.6%52.4%50.0%43.8%36.9%
FrontierMath Tier 435.4%27.1%39.6%38.0%22.9%16.7%
CyberGym81.8%79.0%--73.1%-

モデルの能力と適用領域

OpenAI はエージェンシー型 AI のためのグローバルインフラを構築しており、世界中の人々や企業が AI を使って実際の仕事を進められるようにしています。過去1年で AI はソフトウェアエンジニアリングを劇的に加速させました。GPT‑5.5 を Codex と ChatGPT に導入することで、この変革は科学研究やコンピュータ上で行うより広範な業務にも広がり始めています。

GPT‑5.5 は単により賢いだけでなく、問題解決の過程でより効率的に動き、しばしばより少ないトークンや再試行で高品質な出力に到達します。Artificial Analysis の Coding Index によれば、GPT‑5.5 は競合する最先端コーディングモデルの半分のコストで最先端の知能を提供します。Artificial Analysis Intelligence Index(外部機関が実行する10の評価の加重平均)は AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom を含みます。

エージェンシー型コーディング

GPT‑5.5 はこれまでで最も強力なエージェンシー型コーディングモデルです。複雑なコマンドラインワークフロー(計画、反復、ツール連携を必要とする)をテストする Terminal-Bench 2.0 で 82.7% の最先端精度を達成しました。実世界の GitHub issue 解決を評価する SWE-Bench Pro では 58.6% に達し、従来モデルよりも単一パスでエンドツーエンドに解決するタスクが増えました。

社内の長期のコーディング作業を評価する Expert-SWE(中央値の人間完了推定時間が20時間の課題)でも GPT‑5.5 は GPT‑5.4 を上回っています。これら3つの評価全てにおいて、GPT‑5.5 は GPT‑5.4 よりスコアを向上させつつ、より少ないトークンで動作しています。

Codex 内では、実装やリファクタリングからデバッグ、テスト、検証に至るまでのエンジニアリング作業を引き受けられます。初期テストでは、システム全体のコンテキストを保持すること、曖昧な故障を論理的に調査すること、ツールで仮定を検証すること、周辺コードベースへ変更を反映させ続けることなど、実際のエンジニアリングに必要な振る舞いがより優れていることが示唆されています。

例(プロンプト)

Prompt: [attached image]

Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.

上の例のように、GPT‑5.5 は画像と要件を受け取り、WebGL と Vite を用いたインタラクティブな 3D アプリの実装、現実の Artemis II ミッションデータの利用、天体・軌道描画の忠実な再現、十分なテストと検証までを見据えた作業を行うことが期待されます。

実務での行動的理解

早期テスターの声では、GPT‑5.5 はシステムの「形」を理解する能力が強いとされます。なぜ何かが失敗しているのか、修正をどこに入れるべきか、コードベースの他のどこに影響が及ぶかを把握できます。

“The first coding model I’ve used that has serious conceptual clarity.” — Dan Shipper, Founder and CEO of Every

彼はあるアプリを立ち上げた後の不具合について数日間デバッグし、最終的にエンジニアがシステムの一部を書き換えた事例を挙げ、GPT‑5.4 では再現できなかったその書き換えを GPT‑5.5 は提示できたと述べています。

“It genuinely feels like I’m working with a higher intelligence, and there’s almost a sense of respect.” — Pietro Schirano, CEO of MagicPath

あるケースでは、数百のフロントエンドとリファクタリングの差分を含むブランチを、メインブランチの大幅な変更とマージし、約20分で一発で解決したと報告されています。NVIDIA の早期アクセス利用者は「GPT‑5.5 を失うと手足を切り落とされたように感じる」とまで述べました。

Cursor の Michael Truell(共同創業者兼CEO)は次のように述べています。

“GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. It stays on task for significantly longer without stopping early, which matters most for the complex, long-running work our users delegate to Cursor.”

ナレッジワーク

コーディングでの強みは、日常的なコンピュータ上の業務にも効きます。モデルが意図をよりよく理解するため、情報発見、重要点の抽出、ツール利用、結果の検証、生素材の成果物への変換というナレッジワークの一連のループを自然に進められます。

Codex では、ドキュメント、スプレッドシート、スライド作成性能が GPT‑5.4 より優れています。アルファテスターは、オペレーショナルリサーチ、スプレッドシートモデリング、混沌とした業務入力から計画への変換などで過去モデルを上回ったと述べています。Codex の「コンピュータ利用」スキルと組み合わせると、画面の内容を認識してクリックやタイプ、インターフェイス操作を正確に行い、ツール間を移動して仕事を進められる「実際にコンピュータを一緒に使っている」感覚に近づきます。

OpenAI 内では既に多くのチームがこれらを実業務で活用しており、現在社内の85%以上が週単位で Codex を利用しています(ソフトウェアエンジニアリング、ファイナンス、コミュニケーション、マーケティング、データサイエンス、プロダクトマネジメント等)。

  • コミュニケーションチームは6か月分のスピーキングリクエストデータを解析し、スコアリングとリスクフレームワークを構築、低リスクのリクエストを自動処理する Slack エージェントを検証して、高リスクは人間にルーティングされるようにしました。
  • ファイナンスチームは24,771件のK-1税フォーム(合計71,637ページ)をレビューするワークフローを作り、個人情報を除外しつつ前年に比べて2週間作業を短縮しました。
  • Go-to-Market チームでは週次の業務報告の自動化により、週5~10時間の工数を削減しました。

ChatGPT では GPT‑5.5 の思考能力がより難しい問題への迅速な支援を可能にし、よりスマートで簡潔な応答により複雑な作業を効率的に進められます。特にプラグイン使用時に、コーディング、調査、情報合成・分析、文書量の多い作業で優れた性能を発揮します。

GPT‑5.5 Pro では、より高度で質の高い作業を ChatGPT が引き受けられるようになり、遅延改善により要求の厳しいタスクでも実用的になっています。GPT‑5.4 Pro と比べ、GPT‑5.5 Pro の応答は総じてより包括的で構造化され、正確かつ関連性が高く有用であり、特にビジネス、法務、教育、データサイエンス分野で強い性能を示しました。

一部ベンチマークにおける GPT‑5.5 の代表的なスコア:

  • GDPval(44職種にわたる明示的なナレッジワーク能力): 84.9%
  • OSWorld-Verified(モデルが実際のコンピュータ環境を単独で操作できるか): 78.7%
  • Tau2-bench Telecom(複雑なカスタマーサービスワークフロー): 98.0%(プロンプトチューニングなし)
  • FinanceAgent: 60.0%
  • 内部投資銀行モデリングタスク: 88.5%
  • OfficeQA Pro: 54.1%

(Tau2-bench Telecom はプロンプトチューニングなしで実行。)

NVIDIA、Cisco、Abridge、Databricks、Harvey、Box、Lowe’s、Glean、Palo Alto Networks、Ramp などの企業からは次のような評価が寄せられています:

“GPT‑5.5 delivers the sustained performance required for execution-heavy work. Built and served on NVIDIA GB200 NVL72 systems, the model enables our teams to ship end-to-end features from natural language prompts, cut debug time from days to hours, and turn weeks of experimentation into overnight progress in complex codebases.” — Justin Boitano, VP of Enterprise AI at NVIDIA

科学研究

GPT‑5.5 は単なる「難問への回答」以上を必要とする科学技術研究ワークフローでも改善を示します。研究者はアイデアを探索し、証拠を集め、仮定を検証し、結果を解釈し、次に試すことを決める必要があります。GPT‑5.5 はそのループを継続して実行する能力が他モデルより優れています。特に GeneBench などの評価で GPT‑5.4 を上回る明確な改善を示しています。

結び

GPT‑5.5 は、より高い知能・持続力・効率を組み合わせることで、エンジニアリング、ナレッジワーク、研究といった実世界の仕事に対する AI の支援能力を一段と引き上げます。私たちは安全性に対する投資を継続しつつ、幅広いユーザーがこれらの能力を実用的に使えるようにしていきます。