Databricks、GPT-5.5を企業向けエージェントワークフローに導入
公開日: 2026-05-15
Databricksは、複雑なエンタープライズ文書タスク向けのベンチマーク「OfficeQA Pro」で新たな最先端性能を達成したGPT-5.5を、顧客のエージェントワークフロー向けに提供開始しました。
- 企業規模: エンタープライズ
- 地域: 北米
- 業界: Technology
- 製品: Codex
- OfficeQA Proベンチマークでの精度: 50%(最先端)
- GPT-5.4に対する誤り削減: 46%
概要
OfficeQA Proは、スキャンされたPDF、レガシー形式のファイル、長文コンテキストを含むワークフローにおけるパース、検索(retrieval)、および根拠に基づく推論(grounded reasoning)を評価するベンチマークで、実運用のエージェントシステムが破綻しやすいタスク群を対象としています。エージェントハーネス設定(agent-harness setting)において、GPT-5.5はGPT-5.4と比べて誤りを46%削減し、OfficeQA Proで初めて50%を超える精度を達成しました。
“Codex with 5.5 is now state-of-the-art amongst all the agents and models out there.”
— Arnav Singhvi, Research Engineer
OfficeQA ProでのSOTA性能
OfficeQA Proには、多数のスキャン文書やレガシー文書が含まれており、パース段階での小さな抜けや誤りが後続のワークフロー全体に波及することがあります。Singhviは次のように説明します。「ある桁や数字を抽出できないと、エージェントが扱う情報の全体的な軌跡が変わってしまう」。
Databricksは、GPT-5.5による最も大きな改善がパースに依存するワークフローで見られたと報告しています。Singhviは「5.4のような以前のモデルはすべての桁を正確にパースできないことがありましたが、5.5は古い文書やスキャンPDFのパースにおいてステップ関数的な向上を示しているようだ」と述べています。
また、マルチステップタスクにおけるオーケストレーションの改善も確認されました。Singhviは「5.4では不要な検索の寄り道をしてしまうことがあり、それが非常に非効率な軌跡を生んでいたことがあった。GPT-5.5は関連するコンテキストの取得と複雑なワークフローの完遂においてより信頼性が高い」と述べています。
プロダクションワークフローへの組み込み
Databricksは現在、GPT-5.5をAI Unity Gatewayを通じて提供しており、顧客はAgentBricksやAgent Supervisor APIで構築されたワークフロー内でこのモデルを利用できます。これらのシステムでは、GPT-5.5が専門エージェント群の間でパース、検索、実行をオーケストレーションします。
Singhviは「多くの顧客がカスタムエージェントワークフローにAgentBricksやAgent Supervisor APIを使うようになるだろう。これらのワークフローをGPT-5.5が監督するのは非常にエキサイティングだ」と述べています。
“GPT-5.5 has been great in terms of knowledge lift. It’s a step size function change in terms of doing knowledge work for us.”
— Arnav Singhvi, Research Engineer
興味がある企業は営業窓口(Contact sales)にお問い合わせください。
その他
世界中で100万以上の企業がOpenAIを活用して有意義な成果を上げています。
関連記事
- A new personal finance experience in ChatGPT — Product — May 15, 2026
- Sea's View on the Future of Agentic Software Development with Codex — May 14, 2026
- Work with Codex from anywhere — Product — May 14, 2026