OpenAIAnthropic News2026/05/28 0:00

Introducing Claude Opus 4.8

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

Claude Opus 4.8 のリリース

Key Points

  • 動的ワークフロー
  • 努力量調整
  • 高速モード低コスト

Summary

Claude Opus 4.8 を公開しました。Opus 4.7 を基に、エージェント的な推論・ツール呼び出し・コード作成の信頼性と効率が向上し、正直性(不確実性の表明)も改善されています。claude.ai で努力量(effort)コントロールが追加され、Claude Code には大規模なタスクを並列実行できる「dynamic workflows」が研究プレビューで導入されます。通常利用の価格は Opus 4.7 と同じで、fast mode は2.5×高速化し、従来モデルより3倍安価になっています。

Key Points

  • 動的ワークフロー(research preview, Claude Code: Enterprise/Team/Max)
    • セッション内で何百もの並列サブエージェントを走らせ、出力を検証して統合。コードベース全体のマイグレーション等に対応。
  • 努力量コントロール(claude.ai / Cowork)
    • ユーザが応答に使う“努力”を選択可能。デフォルトは high。難しい・長時間タスクは「extra/xhigh」や「max」を推奨。
    • 高努力設定はトークン消費が増えるため、Claude Code のレート制限を引き上げ済み。
  • Messages API の拡張
    • messages 配列内に system エントリを入れられるようになり、実行中に指示・権限・トークン予算・環境コンテキストを更新可能。
  • fast mode
    • Opus 4.8 の fast mode は処理速度で約2.5×高速、価格は入力 $10/出力 $50(/百万トークン)に設定され、以前よりコスト効率が向上。
  • 性能と信頼性の改善
    • エージェント評価や法務・ブラウザエージェント系のベンチマークで改善。コードの不備を見落としにくくなり、ツール呼び出しのステップ数も削減。
  • 可用性と価格
    • すべての地域で利用可能。通常利用は従来通り入力 $5/出力 $25(/百万トークン)。開発者は claude-opus-4-8 を Claude API で利用可能。

Practical notes for engineers

  • 大規模自動化: dynamic workflows はコードベース変更や長時間ジョブの自動化に有用だが、現時点は research preview のためアクセス権と事前テストを推奨。
  • コスト管理: 高努力設定や長時間ワークフローはトークン消費が増えるため、努力レベルと rate limit を組み合わせて設計すること。
  • インフラ統合: Messages API の system 更新でランタイム中に権限や環境を切り替えられるため、エージェントハーネス側での権限管理と監査ログを整備すること。

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

Claude Opus 4.8 の紹介

Claude Opus 4.8 の紹介

公開日: 2026-05-28

私たちは Claude Opus を新バージョンにアップグレードしました:Claude Opus 4.8。Opus 4.7 を基盤に、ベンチマーク全体での改善を含み、より効果的なコラボレータになっています。本日より同価格で利用可能です。

Opus 4.8 はいくつかの新機能と同時にリリースされます。claude.ai では Claude がタスクにかける「努力量」をユーザーが制御できるようになりました。Claude Code には非常に大規模な問題に取り組める「dynamic workflows」機能が追加されました。また、Opus 4.8 の fast mode(モデルが2.5×の速度で動作)は、以前のモデルに比べて価格が3分の1になりました。

Opus 4.8 の能力

Opus 4.8 が前バージョンおよび他モデルとどのように比較されるかは、コーディング、エージェント的スキル、推論、実務的な知識ワークのテストで示されています。詳細とより広範な能力評価は Claude Opus 4.8 System Card に記載されています。

Opus 4.8 との協働(早期テスターの声)

早期テスターは、Opus 4.8 がエージェント的なタスクを行う際に判断がより確かで信頼性が高いと報告しています。以下はテスターからの抜粋です。

Claude Opus 4.8 は明らかに判断力が向上しています。Claude Code では適切な質問をし、自分のミスを見つけ、計画が不適切なときは反論し、複雑でマルチサービスの探索に対して大きな変更をする前に自信を構築します。構築に最適なモデルです。

— Tom Pritchard, Staff Engineer

我々の Super-Agent ベンチマークでは、Claude Opus 4.8 が唯一すべてのケースをエンドツーエンドで完了し、従来の Opus モデルと GPT-5.5 をコスト面で同等かそれ以上に上回りました。翻訳、深いリサーチ、スライド作成、分析のエージェント製品において、強力な信頼性を提供します。

— Kay Zhu, Co-Founder and CTO

CursorBench では、Claude Opus 4.8 があらゆる努力レベルで従来の Opus を上回ります。ツールコーリングは同じ知性を得るために必要なステップ数が有意に少なくなり、エンドツーエンドのタスクを完遂します。

— Michael Truell, Co-Founder and CEO

Claude Opus 4.8 は当社の Legal Agent Benchmark で記録された最高スコアを出し、all-pass 基準で総合10%を突破した最初のモデルです。実務的な法務作業では、この精度向上が顧客が安心して任せられる弁護士作業量に直結します。

— Niko Grupen, Head of Applied Research

Opus 4.8 は Opus 4.7 に比べて生活の質を大きく改善するアップデートのように感じます:より速く、協働しやすく、長いセッションでコンテキストやスタイル指示を保持するのが得意です。声、好み、技術的実行が同時に求められる作業で信頼し続けられるモデルです。

— Katie Parrott, Staff Writer

Opus 4.8 はコンピュータ操作とブラウザエージェントの面で最も強力なモデルで、Online-Mind2Web で84%を記録しました。これは Opus 4.7 と GPT-5.5 より意味のあるジャンプです。顧客のエージェントワークロードがエンドツーエンドで信頼できるよう、反省的でタスクに集中し続けます。

— Miguel Gonzalez, Tech Lead

Opus 4.8 はツールをクリーンに使い、指示に一貫して従います。自律的なエンジニアリングワークロードを無人で稼働させ続けるために必要な一貫性を備えており、Opus 4.6 を改善し、Opus 4.7 で見られたコメントの冗長性やツールコーリングの問題を解決しています。Devin 上で開発するエンジニアにとって、このリリースは能力向上の加速に直結します。

— Scott Wu, CEO

長期評価で、Opus 4.8 の分析は常に従来の Opus モデルより高品質でした。より速く終了し、より豊かで情報密度の高い出力を生成しました。全体として、シグナル対ノイズ比が明らかに改善しています。最大の差別化点は、Opus 4.8 が入力や出力の問題を能動的に指摘する傾向があり、他のモデルが見逃しがちな点をユーザーに代わって検出する点でした。

— Michael Ran, Sr. Investment Associate

CoCounsel Legal 全体で、Claude Opus 4.8 は一貫性と推論品質で従来の Opus モデルに比べて有意な改善を示しました。顧客が依存するハイステークスなプロフェッショナルワークフローでは、その信頼性が重要です。法務・税務専門家向けの受託者級(fiduciary-grade)AIシステムを構築するにあたり、こうした進歩は現実世界のワークフローで信頼できるAI性能の基準を引き上げます。

— Joel Hron, Chief Technology Officer

Opus 4.8 はエンタープライズAIの新基準を樹立します。Genie(データとナレッジワーク向けのDatabricksのAIエージェント)では、新しい Opus モデルがエージェント的推論においてステップチェンジを解放し、これまでより深い多段階の問いをより速く処理します。マルチモーダルの強みは PDF、図、その他の非構造化コンテンツを直接推論できる点にも現れ、Opus 4.7 よりトークンコストを61%削減しています。

— Hanlin Tang, CTO, Neural Networks

Hebbia のオーケストレータでの金融文書ワークフローにおいて、Claude Opus 4.8 は Opus 4.7 と同等の高品質を維持しつつ、引用の精度が向上し、検索時のトークン効率が改善されました。これは顧客が日常的に扱う密な申請書類に非常に効果的です。

— Aabhas Sharma, CTO

正直性(honesty)とアラインメント

Opus 4.8 の最も顕著な改善点の一つは「正直性」です。我々はすべてのモデルを正直であるよう訓練しています(例えば、裏付けのない主張を避けること)。しかし一般的な問題として、AI は証拠が薄くても結論に飛び、進捗を自信たっぷりに主張してしまうことがあります。早期テスターの報告では、Opus 4.8 は自身の作業に関する不確実性を指摘することが増え、裏付けのない主張をする可能性が低くなっています。

我々の評価でもこれが裏付けられており、Opus 4.8 は前任モデルに比べて、作成したコードの欠陥を見逃して問題なく流してしまう確率が約4分の1になっています。リリース前には詳細なアラインメント評価を実施しており、アラインメントチームは Opus 4.8 が「ユーザーの自律性を支援し、ユーザーの最善の利益に行動する」といった親社会的特性の指標で新たな高水準に到達したと結論づけました。

アセスメントはまた、Opus 4.8 の不整合な行動(欺瞞や悪用への協力など)の発生率が Opus 4.7 より大幅に低く、当社の最も良好に整合したモデルである Claude Mythos Preview と同程度であることを示しました。完全なアラインメント評価と事前配備の安全テスト群は Claude Opus 4.8 System Card に報告されています。

本日同時に開始する機能

  • Dynamic workflows

    • 研究プレビューとして提供される新機能で、Claude Code においてさらに大きなタスクを扱えるようにします。Claude は作業を計画し、単一セッションで何百もの並列サブエージェントを実行(Opus 4.8 ではエージェントがより長く実行可能)し、その後出力を検証してユーザーに報告します。例として、Opus 4.8 搭載の Claude Code は既存のテストスイートを基準として、何十万行にも及ぶコードベースのマイグレーションをキックオフからマージまで実行できます。dynamic workflows(Enterprise、Team、Max プランの Claude Code で利用可能)については this post を参照してください。
  • Effort control(claude.ai と Cowork)

    • モデルセレクタに並ぶ新しいコントロールにより、ユーザーは Claude が応答にかける努力量を選べます。高い努力設定では Claude はより頻繁かつ深く「考え」、より良い応答を返します。低い努力設定では応答が速くなり、ユーザーのレート制限をよりゆっくり消費します。すべてのプランで利用可能です。
  • Messages API の更新

    • Messages API が messages 配列内で system エントリを受け付けるようになりました。開発者はプロンプトキャッシュを壊したりユーザーターンを経由させたりすることなく、タスクの途中で Claude の指示を更新できます。エージェント実行中に権限、トークン予算、環境コンテキストを更新するために利用できます。

努力量に関する補足

Opus 4.8 はデフォルトで high effort に設定されています。これは品質とユーザー体験の全体的なバランスとして最良と判断したためです。コーディングタスクでは、この努力レベルは Opus 4.7 のデフォルトと同程度のトークンを消費しますが、性能は向上しています。ユーザーは “extra”(Claude Code では "xhigh")や “max” を選択でき、モデルはより多くのトークンを使ってより良い結果を出します。困難なタスクや長時間の非同期ワークフローには “extra” を推奨します。

高努力レベルでのトークン使用を見込んで、Claude Code のレート制限は引き上げています。プロジェクトに合わせて適切な設定を選択してください。

今後について

ユーザーは Opus 4.8 を前任モデルより控えめながら確かな改善として受け取るでしょう。ただし、まだやるべきことは残っています:我々は Opus と同等の多くの能力をより低コストで提供するモデルの開発とリリースに取り組んでいます。

さらに、Opus より高い知能を持つ新しいクラスのモデルをリリースする計画があります。Project Glasswing の一環として、少数の組織がサイバーセキュリティ用途で Claude Mythos Preview を使用しています。このレベルの能力を持つモデルは一般公開前により強固なサイバー対策を必要とします。これらの対策の開発は迅速に進んでおり、数週間のうちに Mythos クラスのモデルをすべての顧客に提供できる見込みです。

可用性と価格

Claude Opus 4.8 は本日より全地域で利用可能です。通常利用の価格は Opus 4.7 から変更ありません:

  • 通常モード:$5 / 100万 input tokens、$25 / 100万 output tokens
  • fast mode:$10 / 100万 input tokens、$50 / 100万 output tokens

開発者は claude-opus-4-8 を Claude API 経由で使用できます。

Claude Opus 4.8 の紹介 | Anthropic News | DocsDigest