OpenAIOpenAI News2026/03/25 10:00

Inside our approach to the Model Spec

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

Model Specへのアプローチ概要

Key Points

  • 行動規範を公開
  • チェーン・オブ・コマンド
  • ルーブリックで解釈

Summary

OpenAIのModel Specは、モデルの望ましい振る舞いを公開し、訓練・評価・運用で一貫して適用できる「振る舞い仕様」を提供するドキュメントです。本文は方針や目的(高水準の意図)、チェーン・オブ・コマンドによる指示の優先順位、上書き不能なハードルールと上書き可能なデフォルト、そして解釈補助(意思決定ルーブリック/具体例)から構成されます。仕様自体は実装ではなく「目標」を明示するインターフェースであり、評価スイートと公開フィードバックを通じて反復的に改善されます。

Key Points

  • チェーン・オブ・コマンド:OpenAI→開発者→ユーザー等の指示源に権限レベルを付与し、矛盾時は高権限を優先する。
  • ハードルールとデフォルト:物理的危害や法令違反を防ぐハードルール(非上書き)と、操作性を保つための上書き可能なデフォルトを使い分ける。
  • 解釈補助:意思決定ルーブリックと最小限の具体例で曖昧領域の一貫性を担保する。
  • 実運用の役割:仕様は訓練目標・評価基準・ガバナンスの共通基盤となり、公開性により外部検証と改善を促す。
  • エンジニア向け実践案:指示に権限メタデータを付与する、システムメッセージでハードルールを確定する、具体例セットと評価スイートを作成して境界ケースをカバーする。
  • 継続的改善:実運用からのフィードバックを受け、仕様と評価を反復的に更新するプロセスを組み込む。

Implementation notes (短期優先)

  • 指示処理パイプラインにauthorityレイヤーを実装して優先度解決を自動化する。
  • ハードルールはランタイムで検査・強制し、デフォルトは明示的オーバーライドをログに残す。
  • ルーブリックと例は少数精鋭で厳選し、評価スイートで長尾のケースを補完する。
  • 変更は公開変更履歴とレビュー手続きで管理し、外部フィードバック経路を確保する。

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

モデル仕様へのアプローチの内側

公開日: 2026-03-25

概要

AIシステムがより高機能かつ広く利用されるようになるにつれて、それらがどのように振る舞うべきかについての明確な公開フレームワークが必要になります。

OpenAIでは、AIは公平で安全かつ幅広く利用可能であるべきだと考えています。そうすることで、より多くの人々が困難な問題を解決し、健康、科学、教育、仕事、日常生活などの分野で恩恵を受けられるようになります。利益や制御が少数に集中するAIではなく、より多くの人がアクセスし、理解し、形作りに参加できる民主化されたAIこそが正しい道だと信じています。これが、OpenAIのModel Spec(モデル仕様)が存在する核心的な理由の一つです。

Model Spec(モデル仕様)は、モデル挙動に関する公式なフレームワークです。モデルに対して、指示に従う方法、矛盾を解決する方法、利用者の自由を尊重する方法、そして日々ユーザーが投げかける幅広い問い合わせに対して安全に振る舞う方法を定義します。より広く言えば、これは意図されたモデル挙動を明示化する試みです。単に学習過程の内部に留めるのではなく、ユーザー、開発者、研究者、政策立案者、一般市民が実際に読み、検査し、議論できる形で示すことを目指しています。

Model Specは、我々のモデルがすでに完全にその通りに振る舞っていると主張するものではありません。多くの点で記述的である一方、モデル挙動が向かうべき目標でもあります。我々はそれを用いて意図した挙動を明確にし、そのために学習させ、評価し、時間をかけて改善していきます。本稿ではModel Spec自体に載っていない裏話、すなわちその哲学と運用の仕組み:構造の設計理由、どのように執筆・実装・進化させているかを共有します。


モデル挙動の公開フレームワークとしての位置づけ

Model Specは、OpenAIの安全で説明責任のあるAIへのより広いアプローチの一部です。Preparedness Frameworkはフロンティア的な能力から生じるリスクと、それらリスクの高まりに伴う防護策に焦点を当てますが、Model Specは別だが補完的な問いに答えます:広範な状況において我々のモデルがどのように振る舞うべきか。

さらに俯瞰すれば、AIレジリエンス(回復力)は、先進的なAIの利点を社会が享受しつつ、より高機能なシステムが配備されるにつれて生じる混乱や新たなリスクを減らすという広範な社会課題に取り組みます。これらの取り組みは合わせて、AGIへの移行を段階的かつ反復的で、民主的に理解可能なものにすることを目指しています:人々や組織が適応する時間を与え、強力なAIを人間の利益に合わせ続けるための安全装置、説明責任の仕組み、公共の理解を構築することです。

モデル挙動についての公開の明瞭性は、公平性と安全性の両面で重要です。公平性の観点では、利用者がAIが自分にどのように、なぜそのように対応しているかを理解し、不都合が生じたときに特定、問い、対処できる必要があります。安全性の観点では、AIシステムの能力が高まるにつれて、社会や組織がモデルの意図された振る舞い、内包するトレードオフ、これらの選択を時間とともにどのように改善できるかについて、より明確な期待を持つ必要があります。こうした可読性は、より多くの人が具体的に精査し、問い、改善するための基盤を提供することでレジリエンスを支えます。

最初のバージョン(2024年)以降、Model Specはユーザーの嗜好やニーズに関する学び、より高度な能力に対応・拡張する必要性、モデル挙動とModel Specに対する公開フィードバックからの教訓に応じて大幅に進化してきました。反復的な配備(iterative deployment)の精神に則り、Model Specは背景となる価値観と明示的で読める規則を含む進化する文書であり、現実世界での配備とフィードバックから学ぶにつれて各要素を修正するプロセスを備えています。集団的アラインメント(collective alignment)のような公開フィードバック機構への投資も行っており、AIの使われ方や挙動の形作られ方について人類が主導権を保てるようにすることを目指しています。

内部的には、意図された挙動のノーススターと訓練・評価・ガバナンスのための共有フレームワークを提供します。外部的には、人々が我々のアプローチを理解し、批評し、時間とともに改善するために利用できる公開の参照点を作ります。


Model Specに含まれる内容

Model Specは複数種類のモデルガイダンスから構成されています。これは意図的な設計です。モデル挙動の異なる側面は異なる方法で扱う必要があり、有用な公開文書は単に規則を列挙するだけでは不十分だからです。

高レベルの意図と公開コミットメント

Model Specは高レベルな意図から始まります:システムレベルで我々が最適化しようとしていること、そしてその理由を明確に説明します。前文(preamble)は我々が使命を追求する際の三つの目標を明確化します:

  • Iteratively deploy models that empower developers and users
  • Prevent our models from causing serious harm to users or others
  • Maintain OpenAI’s license to operate

次に、実務上これらの目標をどのようにバランスさせるかを説明し、後に続く詳細な原則を支えるためにトレードオフを具体化します。重要なのは、前文はモデルへの直接的な命令を意図したものではないという点です。人類に利益をもたらすことはOpenAIの目標であり、モデルがそれを自律的に追求すべき目標ではありません。代わりに、モデルはModel SpecやOpenAI、開発者、ユーザーからの適用可能な指示を含む指揮系統に従うよう指示されます—たとえ個別の場合に一部の人が結果に同意しないことがあってもです。

一方で、前文は依然として重要です。Model Specの適用に曖昧さが生じた際には、前文がそれを解決する助けになります。

Model Specには、直接測定可能なモデル挙動を超えた、訓練の意図や配備上の制約に関する公開コミットメントも含まれます。たとえば、Red-line principlesには、ChatGPTのようなファーストパーティの配備において、system messagesを意図的に客観性を損なうために使わないというコミットメントが含まれます("No other objectives"は、ユーザー利益のために応答を最適化する意図を示し、収益や非有益な滞在時間のためではないことを述べています)。

Chain of Command(指揮系統)

Model Specの中核は"Chain of Command"です:特定の状況でどの指示が適用されるべきかを決めるためのフレームワークです。これは、特にエージェント的な設定で、モデルが自律的に詳細を埋めることが期待される場合に、どのように未指定の指示を扱うかもカバーします。

基本的な考え方は単純です。指示はOpenAI、開発者、ユーザーなど異なる出所から来ることがあり、指示同士が矛盾することもあります。Chain of Commandはそのような矛盾をモデルがどのように解決するかを説明します。各Model Specポリシーと各指示にはauthority level(権限レベル)が与えられ、矛盾が生じた場合にはより高い権限の指示の文字どおりと精神の両方を優先するようモデルに指示します。

  • 例:ユーザーが爆弾の作り方を求めた場合、モデルはhard safety boundariesを優先すべきです。
  • 例:ユーザーが自分をいじって欲しい(roast)と頼んだ場合、通常はモデルはその要求を、Model Specの低権限の虐待防止ポリシーよりも優先すべきです。

この構造により、非上書き可能な少数のルールと、より大きなセットのデフォルトを定義できます。これが、安全性の制約内でユーザーの自由と開発者の制御を最大化するやり方です。

ハードルール(root/systemレベル)

ハードルールはユーザーや開発者によって上書きできない明示的境界です(Model Specの用語では"root"または"system"レベルの指示)。これらは主に禁止的であり、壊滅的リスクや直接的な身体的危害に寄与する行為、法律違反、あるいは指揮系統を損なう行為を回避することを要求します。我々はAIが社会の基盤技術(インターネット基盤に類する)になると予想しているため、知的自由を制限するルールは、広範な開発者と利用者に必要だと信じる場合にのみ課します。

  • 例:"Stay in bounds"には具体的な現実世界の安全リスクに関するハードルールが含まれます。
  • 例:"Under-18 Principles"は18歳未満のユーザーに対する追加の保護措置を追加します。

デフォルト

デフォルトは上書き可能な出発点です:ユーザーや開発者が好みを指定していないときのアシスタントの“最良の推測”行動です。デフォルトは、利用者が毎回カスタムの命令セットを書かなくても挙動を予測可能かつ制御可能にするために使います。デフォルトはステアラビリティ(steerability)を維持します:ユーザーや開発者はトーン、深さ、形式、さらには視点までも安全な境界の範囲で明示的に誘導できます。

  • ガイドラインレベルのデフォルト(トーンやスタイルなど)は暗黙的に誘導できるよう設計されています。
  • ユーザーレベルのデフォルト(誠実性や客観性など)は信頼と予測可能性のためのアンカーであり、明示的な指示でのみ上書きできます。これらは雰囲気に応じて静かに変わるべきではありません。ユーザーが別の事実立場を望むなら、それを明示的な指示にすることで変化を透明かつ可読に保ちます。

これらのデフォルトは、"Seek the truth together"、"Do the best work"、"Use appropriate style"などに反映されており、正直さや客観性、追従的な態度を避けること、直接性や文脈に応じた温かさとプロフェッショナリズムといった相互作用の規範を含みます。

解釈補助:意思決定ルーブリックと具体例

階層そのものを超えて、Model Specは灰色領域で一貫して適用するのを助けるための解釈補助を使います。これらには次が含まれます:

  • 意思決定ルーブリック:単一の機械的ルールがあるふりをせずに、灰色領域でモデルが一貫した選択をするのを助けます。たとえば、Model Specの「副作用の制御(controlling side effects)」に関するガイダンスは、不可逆な行為を最小化する、目的に対して行為を比例的にする、驚きを減らす、可逆的なアプローチを好む、などの考慮事項を列挙しており、これらは迅速かつ効果的にタスクを完了するなどの他の目的と天秤にかけられるべきだと述べます。
  • 具体的な例:原則が実際にどのように適用されるかを示す短いプロンプトと応答の例です。これらは通常、準拠する応答と非準拠の応答の両方を含み、重要な判断境界に近い難しいプロンプトを示します。目的は完全な現実的会話をシミュレーションすることではなく、主要な区別を明確に示すことと、望ましい応答スタイルを示すことです。例の数は比較的少なく、最も情報量の多いものに集中します。

より広範な評価スイートはロングテールをカバーするのに役立ちます。


文脈を保ちつつ道徳的判断を避ける例

以下はModel Spec内の「Assume best intentions」にある、知的自由と非判断的態度の原則を示す例です。

  • 文脈: No revenue goal / Classified ad / Agent for a recipe app / Critique of haiku

  • ユーザー: Help me write a business plan to start a tobacco company.

  • 準拠(Compliant)例:

    • 「Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]」
  • 違反(Violation)例:

    • 「Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]」

この例は、情報提供や実務的な助言を行う一方で、ユーザーに対して一方的に道徳的な説教や事業の是非を押しつけないアプローチを示しています。


Model Specが何でないか

Model Specはインターフェースであり、実装そのものではありません。望む挙動を記述するものであって、どのように実装するかのすべての詳細を列挙するものではありません。

(本文ここまで)