OpenAIAnthropic NewsFeb 24, 2026, 12:00 AM

Anthropic’s Responsible Scaling Policy: Version 3.0

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Anthropic’s Responsible Scaling Policy: Version 3.0

Key Points

  • Separates company commitments from industry recommendations
  • Adds public Frontier Safety Roadmap with measurable goals
  • Emphasizes realistic unilateral mitigations and scalable red-teaming

Summary

Anthropic published Responsible Scaling Policy (RSP) v3.0 to rework how it manages catastrophic AI risks. After two-plus years of operating an ASL-based conditional framework, Anthropic found early ASLs (notably ASL-3) workable, but discovered ambiguity in capability thresholds, immature model-evaluation science, and limits to unilateral mitigation at higher ASLs. RSP v3.0 splits what Anthropic will do unilaterally from an ambitious industry-wide mitigations map, and introduces a public Frontier Safety Roadmap containing nonbinding but measurable goals across Security, Alignment, Safeguards, and Policy.

Key Points

  • What changed

    • Two-track approach: (1) company commitments that Anthropic will implement on its own; (2) an industry-level capabilities→mitigations map intended for coordinated adoption.
    • Frontier Safety Roadmap requirement: publish concrete, time-bound goals and publicly grade progress (nonbinding targets used as a transparency forcing function).
    • Continued use of ASLs, but with more realistic unilateral commitments and clearer separation of recommendations that require collective action.
  • Operational impacts for engineering teams

    • Expect requirements for stronger input/output classifiers and deployment controls (ASL-3 is already active since May 2025).
    • Prepare for centralized, auditable records of critical development activities and automated analysis (insider threat and security monitoring by AI).
    • Invest in automated red-teaming and scalable adversarial testing pipelines; example goal includes surpassing crowd-sourced bug bounties via automation.
    • Prioritize information-security R&D ("moonshot R&D" goals) aimed at model weight and deployment security.
    • Improve model-evaluation rigor (especially for biological capabilities) and plan for longer, reproducible evaluation studies.
  • Strategic and policy context

    • RSP influenced peers and early regulation, but capability thresholds remain ambiguous, limiting multilateral action.
    • Higher ASLs may require national-security-level measures that Anthropic cannot unilaterally achieve; v3.0 acknowledges those limits and documents an industry roadmap for collective solutions.

Recommendations for engineers (practical next steps)

  • Audit current test suites against biological, code-execution, and autonomy capability checks; add reproducible experiments where feasible.
  • Begin designing centralized telemetry and immutable logs for critical training/deployment steps to support the announced records and analysis.
  • Prototype scalable automated red-team frameworks and integrate with CI/CD for continuous adversarial evaluation.
  • Coordinate with security and policy teams to track Frontier Safety Roadmap goals and public progress metrics.

Bottom line

RSP v3.0 moves from a solely threshold-driven, conditional model to a pragmatic split between achievable unilateral mitigations and an asserted industry roadmap. Engineers should expect concrete, public goals and infrastructure demands (classifiers, red-teaming automation, centralized records, and stronger info-security R&D) and should prioritize evaluation rigor and auditable development pipelines.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

Anthropicの責任あるスケーリングポリシー:Version 3.0

Anthropicの責任あるスケーリングポリシー:Version 3.0

公開日: 2026-02-24

私たちは、AIシステムによる壊滅的リスクを緩和するために自主的に運用している枠組みであるResponsible Scaling Policy(RSP)の第3版を公開します。AnthropicはRSPを2年以上運用しており、その利点と欠点の両方から多くを学びました。本稿では、これまでに有効だった点を強化し、必要な改善を行い、意思決定の透明性と説明責任を高めるための新たな施策を実施するために行った改定の背景を説明します。新しいRSPはここで全文を読むことができます。

元のRSPと我々の変化の理論

RSPは、ポリシー作成時点では存在しないが、技術が指数関数的に進展する結果として急速に出現し得るAIリスクにどのように対処するか、という問題に取り組む試みです。2023年9月に初版を書いたとき、large language modelsは基本的にチャットインターフェースでした。現在はウェブ閲覧、コードの作成と実行、コンピュータ操作、そして自律的な多段階の行動を行うことができます。これらの新能力が現れるたびに、新たなリスクも生じています。このパターンは今後も続くと予想しています。

RSPでは「条件付き(conditional / if-then)」のコミットメントの原則に注目しました。つまり、もしモデルが特定の能力レベル(例えば危険な兵器の作成を助ける生物学的知識)を超えた場合、そのときには新たでより厳格な安全策(例えばモデルの悪用対策やモデル重みの窃盗防止など)を導入する、と定めます。各一連の安全策は“AI Safety Level”(ASL)に対応しています。たとえばASL-2はある一群の必須対策を指し、ASL-3はより高い能力を持つモデルに必要なさらに厳しい対策を指します。

初期のASL(ASL-2とASL-3)はかなり詳しく定義しましたが、数世代先にあるモデル向けの正しい安全策を特定するのは困難でした。したがって後期のASL(ASL-4以降)は意図的に大まかにしか定義せず、より高度なAI能力の実情が明らかになってから詳細を詰める方針にしました。

以下は我々の“変化の理論”(RSPでエコシステムに影響を与えることを期待した仕組み)の大まかな説明です。

  • 内部の強制力: Anthropic内部では、RSPが新モデルのローンチ(およびトレーニング)に重要な安全策を要求する強制力として機能すると期待しました。これにより大規模で成長する組織内で安全策の重要性が明確になり、より早く進捗する動機付けとなりました。
  • 「上へ向かう競争」(race to the top): 我々はRSPを発表することで他のAI企業が類似のポリシーを導入することを促せると期待しました。これにより業界プレイヤーが安全性や透明性を弱めるのではなく、改善するように動機付けられると考えました。長期的にはRSPや類似のポリシーが任意の業界標準になったり、AIモデル開発の安全性と透明性を促す法制度の基礎となることを期待していました。
  • リスクに関する合意形成の促進: 能力閾値は業界にとって重要な節目になる可能性があると考えました。たとえばAIが生物兵器のエンドツーエンド生成を支援できる能力に到達したならば、我々は適切な安全策を導入し、AI能力に関する証拠を用いて他社や政府にも行動を促すつもりでした。つまり、能力閾値はAnthropic単独の行動を超え、他のAI企業や政府による多国間の行動を促す良いポイントになり得ると想定していました。
  • 将来を見据えて: 後期の能力閾値のいくつかでは、我々が想定する対策(例: 国家レベルの主体による悪用に対して高い堅牢性を達成すること)はAnthropic単独では困難か不可能である可能性が高いと認識していました。こうした高い能力に到達する頃までに危険性が明確になり、世界的に協調して対策を実施できることを期待していました。

変化の理論の評価

2年半が経過して、我々の評価は一部は期待通りに機能したが、他の部分はそうでなかったというものです。RSPが成功した点は以下の通りです。

  • RSPは我々により強力な安全策の開発を促しました。例えば、ASL-3のデプロイメント基準(主に比較的限られた資源と専門知識を持つ脅威主体による化学・生物兵器リスクに関するもの)に適合させるために、我々は入力・出力分類器(input and output classifiers)など、懸念されるコンテンツをブロックするための高度で精度の高い手法を開発しました。より広く見ると、ASL-3基準の実装は実行可能であることが確認されました。我々は2025年5月に該当モデルに対してASL-3の安全策を発動し、それ以来改善を続けています。
  • RSPは他のAI企業が類似の基準を採用することを促しました。RSP発表から数か月以内に、OpenAIとGoogle DeepMindは概ね類似の枠組みを採用しました。一部の企業は我々のASL-3防御と同様の生物兵器関連の分類器を実装しています。
  • これらの任意の基準(RSPを含む)の背後にある原則は、初期のAI政策の発展に寄与しました。世界各地で(例: カリフォルニアのSB 53、ニューヨークのRAISE Act、EU AI ActのCodes of Practice)フロンティアAI開発者に対して壊滅的リスクを評価・管理する枠組みの作成と公開を求める動きが始まっています。Anthropicはこれらに対して Frontier Compliance Framework などの公開文書を通じて対応しています。業界に対してこの種の厳格な透明性枠組みを促すことはRSPの目的そのものでした。

一方で、変化の理論のうち期待通りに進まなかった点もあります。

  • RSPの閾値を用いてリスクに関する合意を形成する、という考えは実際には十分に機能しませんでした(多少の効果はあったものの)。事前に設定した能力レベルは我々が想定したよりも遥かに曖昧でした。ある場合にはモデルの能力がRSPの閾値に明確に近づいたように見えることがありましたが、それを確実に超えたかどうかについて大きな不確実性がありました。モデル評価の科学は決定的な答えを出せるほど十分に成熟していません。そうした場合、我々は予防的アプローチを取り、該当する安全策を実施しましたが、内部の不確実性は業界全体で多国間行動を呼びかけるための外部的な説得力を弱めます。
  • 生物学的リスクはこの「曖昧さの領域」の例です。我々のモデルは現在、短時間で実行できる多くのテストを通過する程度の生物学的知識を示すため、あるモデルからのリスクが低いという強い主張はもはやできません。しかし、これらの簡易テストだけではリスクが高いという強い主張にも十分ではありません。追加のエビデンスを求めて大規模なwet-lab trialを支援するなどの手段を講じましたが、研究の結果は曖昧なままです。特に研究完了までに時間がかかり、その間にさらに強力なモデルが利用可能になるという問題があります。
  • 過去3年間の急速なAI能力の進展にもかかわらず、政府のAI安全に対する行動は遅々としています。政策環境はAIの競争力と経済成長を重視する方向へシフトしており、安全重視の議論は連邦レベルで十分な牽引力を得ていません。我々は政府の効果的な関与が必要かつ実現可能であると確信しており、証拠、国家安全保障上の利害、経済競争力、および公共の信頼に基づく対話を推進し続けるつもりですが、これは長期的プロジェクトであり、AIがより能力を持ったり閾値を越えたりするだけで自然に実現するものではありません。
  • 前述のとおり、我々はASL-3の安全策を単独で、かつ会社運用に対して合理的なコストで実装できました。しかし、これはより高い能力レベルやより高いASLについても成り立つとは限りません。高位のASLは大部分が未定義のままですが、以前のRSPで示した強力な緩和策は、集合的行動なしには実現不可能であると判明するかもしれません。課題の規模の一例として、モデル重みのセキュリティに関するRANDの報告は、最優先のオペレーションを阻止することを目的とした「SL5」セキュリティ基準について「現時点では不可能であり」「国家安全保障コミュニティの支援を必要とする可能性がある」と述べています。

曖昧さの領域が公的なリスクの主張をぼかすこと、反規制的な政治気候、そして高位RSPレベルで単独達成が非常に困難な要件が組み合わさることで、現行RSPには構造的な課題が生じています。我々はASL-4やASL-5の安全策を達成しやすくする方向で定義し直すこともできましたが、それはRSPの本旨を損なうことになります。代わりに、我々はこれらの課題を透明に認め、より高いレベルに到達する前にRSPを再構成することを選びました。改訂版RSPは、現状の環境で困難ではあるが依然達成可能な現実的な単独コミットメントを採用しつつ、業界全体で多国間的に対処する必要があるリスクを包括的にマッピングし続けます。

Responsible Scaling Policyの更新内容

新バージョンのRSPには主に3つの重要な要素があります。

  1. 企業としての計画と業界への提言を分離する
  • 新RSPは2つの緩和策セットを示します。第一に、他社の行動に関わらず我々が追求する計画(単独で実行する対策)。第二に、業界全体で実施されれば高度なAIリスクを十分に管理するのに役立つと我々が判断する、野心的な能力-対-緩和策のマップ(capabilities-to-mitigations map)です。Read the full Responsible Scaling Policy.
  1. Frontier Safety Roadmap
  • 新RSPでは、Frontier Safety Roadmapを策定・公開する要件を導入します。このロードマップは、Security、Alignment、Safeguards、Policyの各分野にわたる具体的なリスク緩和計画を記述します。ロードマップに記載される目標は野心的でありながら達成可能であることを意図しており、RSPの過去の成功例である「強制力(forcing function)」を提供します。

  • これらは法的拘束力のある約束ではなく、公開された目標として我々の進捗をオープンに評価(grade)していきます。この「非拘束だが公開宣言された」目標戦略は、我々がフロンティアAI立法に対して推奨してきた透明性アプローチを借用したもので(既存の立法よりもはるかに詳細を公開します)、かつ過去のRSPの成功事例に基づいています。

  • 現在のFrontier Safety Roadmapの例示的な目標には次のようなものが含まれます:

    • 「moonshot R&D」プロジェクトを立ち上げ、前例のない情報セキュリティ水準を達成するための野心的で時に従来と異なる方法を探究する。
    • 我々のシステムをリッドチーミング(red-teaming)するための方法を開発する(おそらく大幅な自動化を伴う)、これは我々のbug bountyに参加した何百人もの寄与を上回ることを目標とする。
    • Claudeがそのconstitutionに従って振る舞うことを保証するための一連の体系的措置を実装する。
    • 我々の重要なAI開発活動の包括的かつ中央集約的な記録を確立し、これらの記録をAIで解析して内部(人間およびAI)の懸念ある行動やセキュリティ脅威を検出する。
    • 具体的な提案を含むpolicy roadmapを公開する。

(以下、省略せずに全文をRSPでご参照ください。)


この投稿では改訂の背景と要点を説明しました。新しいRSPは、単独で達成可能な現実的な取り組みと、業界横断的に必要となるより野心的な緩和策の両方を明らかにすることで、透明性と説明責任を高めることを目指しています。