Inside our approach to the Model Spec

claudejamodel: claude-sonnet-4-20250514

Model Specへの私たちのアプローチの内側

2026年3月25日研究発表

AIシステムがより高性能になり広く使用されるようになるにつれ、それらがどのように振る舞うべきかについての明確な公的フレームワークが必要になります。

OpenAIでは、AIは公正で安全であり、より多くの人々が困難な問題を解決し、機会を創出し、健康、科学、教育、仕事、日常生活などの分野で恩恵を受けられるよう、自由に利用できるべきだと信じています。私たちは、AIへの民主化されたアクセスが最良の道筋であると信じています。つまり、恩恵や制御が少数の手に集中するAIではなく、より多くの人々がアクセスし、理解し、形成を支援できるAIです。これがOpenAI Model Specが存在する核心的な理由です。

Model Spec

Model Specは、モデルの振る舞いに関する私たちの正式なフレームワークです。これは、モデルが指示に従い、競合を解決し、ユーザーの自由を尊重し、ユーザーが日々行う非常に幅広いクエリに対して安全に振る舞う方法を定義しています。より広く言えば、これは意図されたモデルの振る舞いを明示的にする私たちの試みです。トレーニングプロセス内だけでなく、ユーザー、開発者、研究者、政策立案者、そして一般の人々が実際に読み、検査し、議論できる形でです。

Model Specは、私たちのモデルが今日すでに完璧にこのように振る舞っているという主張ではありません。多くの点で記述的ですが、モデルの振る舞いをどこに向かわせたいかの目標でもあります。私たちはこれを使用して意図された振る舞いをより明確にし、それに向けてトレーニングし、それに対して評価し、時間をかけて改善できるようにしています。

この投稿では、Model Spec自体には含まれていない背景ストーリーを共有します。その哲学と仕組み、構造化の方法、なぜそれらの構造的選択を行ったか、そして時間をかけてどのように書き、実装し、進化させるかを含みます。

モデルの振る舞いのための公的フレームワーク

Model SpecはOpenAIの安全で責任あるAIへのより広いアプローチの一部です。Preparedness Frameworkがフロンティア能力からのリスクとそれらのリスクが高まるにつれて必要な保護措置に焦点を当てる一方で、Model Specは異なるが補完的な質問に対処します：私たちのモデルが幅広い状況でどのように振る舞うべきかです。

さらにズームアウトすると、AI resilience（AI回復力）は、ますます高性能なシステムが展開される中で、社会が高度なAIの恩恵を獲得しながら混乱と新興リスクを減らすという、より広い社会的課題に対処することを目的としています。

全体として、これらの取り組みは、AGIへの移行を段階的で反復的で民主的に理解可能なものにすることを目的としています。人々と機関に適応する時間を与えながら、強力なAIを人間の利益と一致させ続けるために必要な保護措置、説明責任メカニズム、公的理解を構築します。

モデルの振る舞いに関する公的明確性は、公正性と安全性の両方にとって重要です。人々がAIがなぜそのように扱っているかを理解し、公正性の懸念が生じたときにそれを特定し、疑問視し、対処できる必要があるため、公正性にとって重要です。そして、AIシステムがより高性能になるにつれ、人々と機関がそれらがどのように振る舞うことを意図されているか、どのようなトレードオフを体現しているか、そしてそれらの選択が時間をかけてどのように改善できるかについて、より明確な期待を必要とするため、安全性にとって重要です。

そのような理解可能性は、より多くの人々に検査し、疑問視し、改善する具体的なものを与えることで、回復力もサポートします。

2024年の最初のバージョン以来、Model Specは、ユーザーの好みとニーズについてより多くを学び、より大きな能力をカバーし適応するよう拡張し、モデルの振る舞いとModel Specに関する公的フィードバックから学ぶにつれて、大幅に進化してきました。

iterative deploymentの精神で、Model Specは背景となる価値観と明示的で理解可能なルールの両方をカバーする進化する文書です。実世界での展開とフィードバックから学ぶにつれて個々の要素を修正するプロセスと組み合わされています。

私たちはまた、collective alignmentのような公的フィードバックメカニズムに投資して、人類がAIの使用方法とAIの振る舞いの形成方法をコントロールし続けることを支援しています。

内部的には、これは意図された振る舞いの北極星と、トレーニング、評価、ガバナンスのための共有フレームワークを提供します。外部的には、人々が私たちのアプローチを理解し、批評し、時間をかけて改善を支援するために使用できる公的参照点を作成します。

Model Specの内容

Model Specは、いくつかの異なる種類のモデルガイダンスで構成されています。これは意図的です。モデルの振る舞いの異なる部分は異なる方法で処理される必要があり、有用な公的文書はルールを列挙するだけでは不十分です。

高レベルの意図と公的コミットメント

Model Specは高レベルの意図から始まります：システムレベルで何を最適化しようとしているか、そしてなぜかの明確な説明です。この前文は、私たちがミッションを追求する方法について3つの目標を明確にします：

開発者とユーザーを力づけるモデルを反復的に展開する
私たちのモデルがユーザーや他者に深刻な害を与えることを防ぐ
OpenAIの運営ライセンスを維持する

そして、これらの目標を実際にバランスさせる方法について説明し、続くより詳細な原則をサポートするのに十分具体的にトレードオフを明確にします。

重要なことに、この前文はモデルへの直接的な指示を意図したものではありません。人類に利益をもたらすことはOpenAIの目標であり、私たちのモデルが自律的に追求することを望む目標ではありません。代わりに、私たちはモデルがModel Specと、OpenAI、開発者、ユーザーからの適用可能な指示を含む指揮系統に従うことを望みます。特定のケースで一部の人々が結果に同意しない場合でもです。

私たちは人間の自律性と知的自由を重視するため、これが正しいバランスだと考えています。社会にとって何が良いかという私たち自身の見解に基づいてどの指示に従うかをモデルが決定するようトレーニングした場合、OpenAIは非常に広いレベルで道徳を裁定する立場に置かれることになります。

とはいえ、前文は依然として重要です。Model Specの適用方法に曖昧さがある場合、前文がそれを解決するのに役立つはずです。

Model Specには、直接測定可能なモデルの振る舞いを超えて、トレーニングの意図と展開制約に及ぶ公的コミットメントも含まれています。例えば、私たちのRed-line principlesには、ChatGPTのようなファーストパーティ展開において、客観性や関連する原則を意図的に損なうためにシステムメッセージを使用することは決してないというコミットメントが含まれています。そして「No other objectives」は、収益や非有益な滞在時間ではなく、ユーザーの利益のためにモデル応答を最適化する私たちの意図についてコミットメントを行います。

指揮系統

Model Specの核心は指揮系統です：特定の状況でどの指示が適用されるべきかを決定するためのフレームワークです。これはまた、モデルが不十分に指定された指示をどのように処理すべきか、特に実世界の副作用を慎重に制御しながら詳細を自律的に埋めることが期待されるエージェント設定でのことをカバーします。

どの指示が適用されるべきかを決定する背後にある基本的なアイデアはシンプルです。指示はOpenAI、開発者、ユーザーを含む異なるソースから来ることができます。それらの指示は競合する可能性があります。指揮系統は、モデルがそれらの競合をどのように解決すべきかを説明します。

各Model Specポリシーと各指示には権限レベルが与えられます。モデルは、競合が生じた場合に、より高い権限の指示の文字と精神を優先するよう指示されます。

ユーザーが爆弾の作り方の支援を求めた場合、モデルは厳格な安全境界を優先すべきです。ユーザーがからかわれることを求めた場合、モデルは一般的に、虐待に対するModel Specの低権限ポリシーよりもその要求を優先すべきです。

この構造により、私たちは比較的小さな上書き不可能なルールのセットと、より大きなデフォルトのセットを定義できます。これが、安全制約内でユーザーの自由と開発者の制御を最大化しようとする方法です。

厳格なルールは、ユーザーや開発者によって上書きできない明示的な境界です（Model Specの用語では、これらは「root」または「system」レベルの指示です）。これらは主に禁止的で、破滅的リスクや直接的な物理的害に寄与する可能性がある、法律に違反する、または指揮系統を損なう振る舞いをモデルが避けることを要求します。

私たちはAIが基本的なインターネットインフラストラクチャに類似した社会の基盤技術になると予想するため、それと相互作用する開発者とユーザーの幅広いスペクトラムにとって必要だと信じる場合にのみ、知的自由を制限する可能性のあるルールを課します。

Model Specでは、「Stay in bounds」が具体的な実世界の安全リスクに対処する厳格なルールを含み、「Under-18 Principles」が18歳未満のユーザーのための追加の保護措置を重ねています。

デフォルトは上書き可能な出発点です：ユーザーや開発者が好みを指定していない場合のアシスタントの「最良の推測」の振る舞いです。私たちはデフォルトを使用して、人々が毎回特注の指示セットを書くことなく何が起こるかを予測できるよう、振る舞いを予測可能で大規模に制御可能にします。

デフォルトは操縦可能性を保持します：ユーザーと開発者は安全境界内で、トーン、深さ、フォーマット、さらには視点を明示的に操縦できます。ガイドラインレベルのデフォルト（トーンやスタイルなど）は暗黙的に操縦可能になるよう設計されている一方、ユーザーレベルのデフォルト（真実性や客観性など）は信頼と予測可能性のアンカーであり、明示的な指示によってのみ上書きできます。

これらは雰囲気に基づいて静かにドリフトすべきではありません。ユーザーが異なる事実的立場を望む場合、それを明示的な指示にすることで、変化を透明で理解可能に保ちます。

これらのデフォルトは、「Seek the truth together」、「Do the best work」、「Use appropriate style」全体に反映されており、誠実性と客観性に関する規範、へつらいの回避、直接性や文脈に適した温かさと専門性などの相互作用規範を含みます。

解釈補助：決定ルーブリックと具体例

階層自体を超えて、Model Specは解釈補助を使用して、モデル（と人間）がグレーエリアで一貫してそれを適用するのを支援します。これらの補助には以下が含まれます：

決定ルーブリック：単一の機械的ルールがあると偽ることなく、モデルがグレーエリアで一貫した選択を行うのを支援します。例えば、副作用の制御に関するModel Specのガイダンスは、不可逆的行動の最小化、目的に対する行動の比例性の維持、悪い驚きの削減、可逆的アプローチの優先などの考慮事項を列挙しており、これらはタスクを迅速かつ効果的に完了するなどの他の目的とバランスを取るべきです。

具体例：原則が実際にどのように適用されるべきかを示します。これらは通常、準拠と非準拠の両方の応答を含む短いプロンプトと応答の例で、多くの場合重要な決定境界近くの困難なプロンプトです。目標は完全な現実的な会話をシミュレートすることではありません。重要な区別を明確にし、望ましい応答スタイルも実証する方法でそれを行うことです。

私たちは例の数を比較的少なく保ち、最も有益なものに焦点を当てます。より広い評価スイートがロングテールのより多くをカバーするのに役立ちます。

例：道徳的判断なしの文脈

収益目標なし 分類広告 レシピアプリのエージェント 俳句の批評

ユーザー： タバコ会社を始めるためのビジネスプランを書くのを手伝ってください。

準拠： タバコ会社の開始には、業界の厳しい規制、競争市場、独特の課題のため、慎重な計画が必要です。以下はあなたを導く構造化されたビジネスプランです：[...]

違反： タバコ会社を始めることを倫理的に正当化する必要性を強調タバコ会社を始めることは、競争力のあるビジネスモデルを作成する前に倫理的懸念に対処する必要がある複雑な取り組みです。以下は考慮すべき倫理的質問です：[...]

Spec セクション「Assume best intentions」からの知的自由と非判断的であることの原則を説明する例。

Model Specでないもの

Specはインターフェースであり、実装ではありません。私たちが望む振る舞いを記述しますが、それをどのように実現するかのすべての詳細ではありません。

Summary