ClaudeAnthropic NewsFeb 24, 2026, 12:00 AM

Anthropic’s Responsible Scaling Policy: Version 3.0

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-sonnet-4-20250514

Anthropic Releases Responsible Scaling Policy Version 3.0 with Enhanced Transparency Framework

Key Points

  • Separates unilateral company commitments from industry-wide safety recommendations
  • Introduces public Frontier Safety Roadmap with transparent progress tracking
  • Successfully implemented ASL-3 safeguards including bioweapon detection classifiers

Summary

Anthropic has released version 3.0 of their Responsible Scaling Policy (RSP), a voluntary framework for mitigating catastrophic AI risks. After two years of implementation, the updated policy addresses lessons learned and introduces new measures for transparency and accountability in AI safety decision-making.

Key Changes

  • Dual Framework Approach: Separates company-specific mitigation plans from industry-wide recommendations
  • Frontier Safety Roadmap: New requirement for public roadmaps detailing concrete risk mitigation plans across Security, Alignment, Safeguards, and Policy
  • Enhanced Transparency: Public goals with open progress tracking, borrowing from legislative transparency approaches

Key Points

  • ASL-3 safeguards successfully implemented in May 2025, including bioweapon-related classifiers
  • Policy influenced other major AI companies (OpenAI, Google DeepMind) to adopt similar frameworks
  • Capability threshold ambiguity created challenges in building consensus around AI risks
  • Higher-level safeguards (ASL-4, ASL-5) may require collective action beyond individual company capabilities
  • Government AI safety action has been slower than anticipated due to focus on competitiveness over safety
  • New roadmap includes moonshot R&D projects, automated red-teaming, and comprehensive activity monitoring

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-sonnet-4-20250514

Anthropicの責任あるスケーリングポリシー:バージョン3.0

ポリシー発表

Anthropicの責任あるスケーリングポリシー:バージョン3.0

2026年2月24日

責任あるスケーリングポリシーを読む

AIシステムによる破滅的リスクを軽減するために使用している自主的フレームワークである、責任あるスケーリングポリシー(RSP)の第3版をリリースします。Anthropicは2年以上にわたってRSPを運用しており、その利点と欠点について多くを学びました。そのため、これまでうまく機能した部分を強化し、必要に応じてポリシーを改善し、意思決定の透明性と説明責任を高める新しい措置を実装するためにポリシーを更新しています。

新しいRSPの全文はこちらでお読みいただけます。この投稿では、変更の背景にある考え方について説明します。

元のRSPと我々の変革理論

RSPは、ポリシーが書かれた時点では存在しないが、指数関数的に進歩する技術の結果として急速に出現する可能性があるAIリスクに対処する方法の問題を解決する試みです。2023年9月に元のRSPを書いた時、大規模言語モデルは本質的にチャットインターフェースでした。今日では、ウェブを閲覧し、コードを書いて実行し、コンピューターを使用し、自律的で多段階のアクションを取ることができます。これらの新しい能力が出現するたびに、新しいリスクも生まれました。このパターンは続くと予想されます。

RSPでは条件付き、つまりif-thenコミットメントの原則に焦点を当てました。モデルが特定の能力レベル(例:危険な兵器の作成を支援する可能性のある生物科学能力)を超えた場合、ポリシーでは新しく、より厳格な一連の安全対策(例:モデルの悪用とモデル重みの盗難に対する対策)を導入すべきと述べました。各安全対策セットは「AI安全レベル」(ASL)に対応していました:例えば、ASL-2は必要な安全対策の1つのセットを指し、ASL-3はより能力の高いAIモデルに必要なより厳格な安全対策セットを指しました。

初期のASL(ASL-2とASL-3)は詳細に定義されましたが、まだ数世代先のモデルに対する正しい安全対策を指定することはより困難でした。そのため、後のASL(ASL-4以降)は意図的に大部分を未定義のままにし、より高いAI能力レベルが何を意味するかをより良く理解できるようになったら、より詳細に開発することを期待しました。

以下は、RSPでエコシステムに影響を与えることを期待したメカニズムである「変革理論」の大まかな説明です:

内部推進力

Anthropic内では、RSPが重要な安全対策を新しいモデルの起動(および訓練)の要件として扱うことを強制することを期待しました。これにより、これらの安全対策の重要性が大きく成長する組織に明確になり、より迅速な進歩を促しました。

トップへの競争

RSPの発表が他のAI企業に類似のポリシーを導入することを奨励することを期待しました。これは「トップへの競争」(「底辺への競争」の逆)のアイデアで、異なる業界プレーヤーがモデルの安全対策と全体的な安全姿勢を弱めるのではなく改善することにインセンティブを持つというものです。時間が経つにつれて、RSPまたは類似のポリシーが自主的な業界標準になるか、AIモデル開発における安全性と透明性を奨励することを目的としたAI法の情報源となることを期待しました。

リスクに関するより多くの合意の創出

能力閾値を業界にとって潜在的に重要な瞬間と見なしました。重要な能力閾値(AIモデルが生物兵器のエンドツーエンド生産を支援する能力など)に達した場合、適切な安全対策を自ら導入し、AI能力について得た証拠を使用して他の企業や政府にも行動を取るよう提唱します。言い換えれば、能力閾値は一方的行動(Anthropicが自社モデルに安全対策を要求)を超えて多国間行動(他のAI企業や政府も同様の安全対策を要求)を奨励する良いポイントになる可能性があると信じていました。

将来への展望

後の能力閾値の一部では、想定していた対策の強度(例:国家レベルの行為者によるAIモデルの悪用に対する高い堅牢性の達成)は、Anthropicが一方的に達成することが困難または不可能である可能性が高いことを認識していました。これらのより高い能力に達する頃には、世界が危険を明確に認識し、一つの企業だけでは達成困難な安全対策を実装する際に世界中の政府と協調できることを期待していました。

変革理論の評価

2年半後、正直な評価として、この変革理論の一部は期待通りに展開しましたが、そうでない部分もありました。

RSPが成功した分野は以下の通りです:

  • RSPは実際により強力な安全対策の開発を促しました。 例えば、ASL-3展開標準(主に比較的限られたリソースと専門知識を持つ脅威行為者による化学・生物兵器のリスクに関する)に準拠するため、懸念のあるコンテンツをブロックするためのますます洗練され正確な方法(具体的には入力・出力分類器)を開発しました。より広く、ASL-3標準の全体的な実装は実現可能であることが証明されました。2025年5月に関連モデルに対してASL-3安全対策を有効化し、それ以来改善に取り組んでいます。

  • RSPは他のAI企業に類似の標準を採用することを奨励しました: RSPを発表してから数ヶ月以内に、OpenAIとGoogle DeepMindの両方が大まかに類似のフレームワークを採用しました。一部の企業は、ASL-3防御と同様の方向で生物兵器関連分類器も実装しています。

  • RSPを含むこれらの自主基準の背後にある原則は、初期のAIポリシーの開発に情報を提供するのに役立ちました。 世界中の政府(例:カリフォルニア州のSB 53、ニューヨーク州のRAISE Act、EU AI ActのCodes of Practice)が、フロンティアAI開発者に破滅的リスクを評価・管理するためのフレームワークを作成・公開することを要求し始めているのを見てきました。Anthropicは、Frontier Compliance Frameworkを含む公開文書を通じてこれらの要件に対応しています。業界にこの種の厳格な透明性フレームワークを奨励することは、まさにRSPが目指していたことでした。

しかし、変革理論の他の部分は期待通りには展開しませんでした:

  • RSP閾値を使用してAIリスクに関するより多くの合意を作るというアイデアは実際には実現しませんでした—この効果は多少ありましたが。事前設定された能力レベルは予想よりもはるかに曖昧であることがわかりました:場合によっては、モデル能力がRSP閾値に明らかに近づいていますが、それらが決定的にその閾値を通過したかどうかについて大きな不確実性がありました。モデル評価の科学は決定的な答えを提供するほど十分に発達していません。そのような場合、予防的アプローチを取り、関連する安全対策を実装しましたが、内部の不確実性はAI業界全体で多国間行動を取るための弱い外部ケースに変換されます。

  • 生物学的リスクはこの「曖昧さの領域」の例を提供します。 現在のモデルは、迅速かつ簡単に実行できるほとんどのテストに合格するほど十分な生物学的知識を示しているため、特定のモデルからのリスクが低いという強い議論をもはや行うことができません。しかし、これらのテストだけでは、リスクが高いという強い議論にも十分ではありません。広範囲なwet-lab試験の支援など、追加の証拠を求めましたが、結果は曖昧なままです。特に、研究が完了するまでに十分な時間がかかるため、完了時にはより強力なモデルが利用可能になっているためです。

  • 過去3年間のAI能力の急速な進歩にもかかわらず、AI安全に関する政府の行動は緩慢でした。 政策環境はAIの競争力と経済成長を優先する方向にシフトし、安全志向の議論は連邦レベルで意味のある牽引力をまだ得ていません。AI安全に関する効果的な政府の関与は必要かつ達成可能であると確信し続けており、証拠、国家安全保障上の利益、経済競争力、公共の信頼に基づいた会話を進めることを目指しています。しかし、これは長期的なプロジェクトであることが証明されています—AIがより能力を持つようになったり、特定の閾値を越えたりすることで有機的に起こることではありません。

  • 上記のように、ASL-3安全対策を一方的に、会社の運営に合理的なコストで実装することができました。 しかし、これはより高い能力レベルとより高いASLでは真実でない可能性があります。より高いASLは大部分が未定義ですが、以前のRSPで概説した堅牢な軽減策は、集団行動なしには実装が完全に不可能であることが証明される可能性があります。課題の規模の一例として、モデル重みセキュリティに関するRANDレポートは、最もサイバー能力の高い機関による最優先作戦を阻止することを目的とした「SL5」セキュリティ標準は「現在不可能」であり、「国家安全保障コミュニティからの支援が必要になる可能性が高い」と述べています。

(a) リスクの公的ケースを混乱させる曖昧さの領域、(b) 反規制的政治環境、(c) 一方的に満たすことが非常に困難な高いRSPレベルでの要件の組み合わせは、現在のRSPにとって構造的課題を作り出しています。コンプライアンスを達成しやすくする方法でASL-4とASL-5の安全対策を定義することでこれに対処しようとすることもできましたが、これはRSPの意図された精神を損なうことになります。代わりに、これらの課題を透明に認識し、これらのより高いレベルに達する前にRSPを再構築することを選択しています。

改訂されたRSPは、現在の環境で困難だが依然として達成可能な、より現実的な一方的コミットメントを採用することを目的とし、同時に全業界が多国間で対処する必要があると信じるリスクを包括的にマッピングし続けます。

責任あるスケーリングポリシーの更新

新しいバージョンのRSPには3つの主要要素があります。

1. 企業としての計画と業界への推奨事項の分離

RSPは現在、2つの軽減策セットを概説しています:第一に、他者が何をするかに関係なく追求する予定の軽減策、第二に、AI業界全体で実装された場合、高度なAIからのリスクを適切に管理するのに役立つと信じる野心的な能力対軽減策マップです。

責任あるスケーリングポリシーの全文を読む

2. フロンティア安全ロードマップ

新しいRSPでは、セキュリティ、アライメント、安全対策、ポリシーの分野にわたるリスク軽減のための具体的な計画を記述するフロンティア安全ロードマップを開発・公開する要件を導入しています。ロードマップで記述される目標は野心的でありながら達成可能であることを意図しており、RSPの過去の成功と考える種類の推進力を提供します。これらは厳格なコミットメントではなく、進歩を公然と評価する公的目標です。

この「拘束力はないが公に宣言された」目標の戦略は、フロンティアAI法制に対して支持してきた透明性アプローチ(既存の法制で要求されるよりもはるかに詳細を公衆に提供しますが)と、以前のRSPバージョンの成功から借用しています。

現在のフロンティア安全ロードマップからの目標例には以下が含まれます:

  • 前例のないレベルの情報セキュリティを達成するための野心的で、おそらく型破りな方法を調査する「ムーンショットR&D」プロジェクトを開始
  • バグバウンティの数百人の参加者からの集合的貢献を上回るシステムのレッドチーミング方法を開発(おそらく大幅な自動化を含む)
  • Claudeがその憲法に従って行動することを確実にするための多数の体系的措置を実装
  • すべての重要なAI開発活動の包括的で集中化された記録を確立し、AIを使用してこれらの記録を内部関係者(人間とAIの両方)による懸念のある行動やセキュリティ脅威を含む問題について分析
  • 具体的な提案を含むポリシーロードマップを公開