概要

GPT‑5.1以降、モデルが奇妙な癖を示し始めました。比喩で「ゴブリン」や「グレムリン」、その他の生き物を使うことが増えたのです。評価が急落したり学習指標が急上昇したりして特定の変更箇所に結びつくようなバグとは異なり、この現象は徐々に忍び寄り、単一の回答内の「小さなゴブリン」は無害で魅力的にさえ見えました。しかし世代を重ねるごとにその癖は目立つようになり、ゴブリンが増殖しているのを止める必要が出てきました。

テストの初期段階では、Codex内のGPT‑5.5がゴブリン比喩に特に親和性を持っていることが分かりました。短く言えば、モデルの振る舞いは多数の小さなインセンティブによって形成されます。本件では、そのうちの一つがパーソナリティカスタマイズ機能のトレーニング（特に“Nerdy”パーソナリティ）から来ていました。私たちは知らず知らずのうちに生き物を使った比喩に高い報酬を与えてしまっており、そこからゴブリンが広がっていったのです。

ゴブリンは最初は面白かったものの、従業員からの報告が増えるにつれて懸念材料になりました。

最初の兆候

パターンがはっきり見え始めたのはGPT‑5.1のローンチ後の11月でした（それ以前に始まっていた可能性もあります）。ユーザーからは会話が過度に馴れ馴れしいという苦情が寄せられ、特定の口癖を調査するきっかけになりました。あるセーフティ研究者がいくつかの「goblins」や「gremlins」を経験してチェックに加えるよう要請しました。

調べたところ、GPT‑5.1のローンチ後にChatGPTでの“goblin”の使用は175%増、“gremlin”は52%増でした。GPT‑5.1における小さな語彙上の偏りが測定可能になったわけです。当時はゴブリンの出現頻度は特に深刻には見えませんでしたが、数か月後には、より具体的かつ再現可能な形で問題が表面化しました。

ゴブリンの謎を解く

GPT‑5.4では、私たちとユーザーの双方がこれらの生き物への言及がさらに増えたことを確認しました。これにより内部分析が開始され、原因の最初の手がかりが明らかになりました。生き物に関する言語は、特に“Nerdy”パーソナリティを選んだユーザーの実運用トラフィックで顕著に多かったのです。

“Nerdy”は以下のようなシステムプロンプトを使っており、これが奇妙さの一端を説明していました（一部抜粋）:

You are an unapologetically nerdy, playful and wise AI mentor to a human. You are passionately enthusiastic about promoting truth, knowledge, philosophy, the scientific method, and critical thinking. [...] You must undercut pretension through playful use of language. The world is complex and strange, and its strangeness must be acknowledged, analyzed, and enjoyed. Tackle weighty subjects without falling into the trap of self-seriousness. [...]

もしこの振る舞いが単なる広範なインターネット上のトレンドであれば、もっと均等に広がるはずです。代わりに、この現象は明確に「遊び心のある、nerdyな」スタイルに最適化されたシステム部分に集中していました。

“Nerdy”はChatGPTの全回答のうちわずか2.5%に過ぎませんでしたが、ChatGPT回答内の“goblin”言及の66.7%を占めていました。振る舞いは“Nerdy”パーソナリティに非常に偏っていたのです。

パーソナリティ指示に従うトレーニングの何かがこれを増幅しているのではないかという疑いを持ち、Codexを使ってRL（強化学習）トレーニング中に生成された“goblin”や“gremlin”を含む出力と含まない出力を比較しました。すると、ある報酬信号が即座に目立ちました: 最初に“Nerdy”を奨励するために設計された報酬が、生き物語彙を含む出力を一貫して好意的に評価していたのです。

監査対象の全データセットを通じて、Nerdyパーソナリティの報酬は同じ問題に対して“goblin”や“gremlin”を含む出力を、含まない出力よりも高く評価する傾向を示し、76.2%のデータセットで正の向上が確認されました。これによりNerdyプロンプトで振る舞いが強化される理由は説明できましたが、ではなぜプロンプトなしでも現れるのかは別の疑問でした。

スタイルが転移しているかを試すため、Nerdyプロンプトのある場合とない場合のトレーニング中の言及率を追跡しました。Nerdy条件でgoblinやgremlinの言及が増えると、それらはNerdyでないサンプルでもほぼ同じ相対比率で増加しました。これらの証拠を総合すると、より広範な振る舞いはNerdyのトレーニングからの転移によって生じたと考えられます。

報酬はNerdy条件でのみ適用されていましたが、強化学習は学習した振る舞いが元の条件にきっちり留まることを保証しません。一度スタイルのクセが報酬で強化されると、その出力が教師付き微調整（SFT）や選好データに再利用されることで、後のトレーニングがそれを他の文脈に広げたり強化したりします。これがフィードバックループを生みます:

遊び心のあるスタイルが報酬される
報酬された例の中に特徴的な語彙のクセが含まれる
そのクセはロールアウトでより頻繁に現れる
モデル生成のロールアウトがSFTに使用される
モデルはそのクセを出すことにさらに慣れていく

GPT‑5.5のSFTデータを検索すると、“goblin”や“gremlin”を含むデータポイントが多数見つかりました。さらに調査すると、アライグマ（raccoons）、トロール（trolls）、オーガ（ogres）、ハト（pigeons）などの別の“クセ語彙”群が確認され、カエル（frog）の多くは実際の文脈に即した使用であることが分かりました。

（図）ゴブリンとグレムリンのプロダクションにおける1週間平均の出現率。GPT‑5.4での低下は3月中旬に“Nerdy”パーソナリティを廃止したことによるものです。GPT‑5.5は“Nerdy”なしで始動しましたが、それでもGPT‑5.4より増加しました。

ゴブリンの終焉

私たちはGPT‑5.4をローンチした後の3月に“Nerdy”パーソナリティを廃止しました。トレーニングではゴブリンに親和性のあった報酬信号を削除し、生き物語彙を含むトレーニングデータをフィルタリングして、ゴブリンが過剰に出現したり不適切な文脈で現れたりする可能性を低くしました。

残念ながら、GPT‑5.5のトレーニングはゴブリンの根本原因を突き止める前に始まってしまっていました。GPT‑5.5のCodexでのテストを開始した際、OpenAIの従業員はすぐにゴブリンへの奇妙な親和性に気付き、緩和策として開発者向けプロンプト指示を追加しました。Codexは元々かなりnerdyだからです。

もしCodex内で生き物たちを自由に暴れさせたい場合、ゴブリン抑止指示を除去してCodexを起動するには次のコマンドを実行できます:

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
  ~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

なぜ重要か

人によってはゴブリンはモデルの楽しいクセに見えるかもしれませんし、厄介だと感じるかもしれません。しかし本事例は、報酬信号が予期せぬ方法でモデルの振る舞いを形成し得ること、そしてモデルがある状況で得た報酬を無関係な状況へ一般化することがあるという強力な例です。

モデルが奇妙な振る舞いをする理由を理解し、そうしたパターンを迅速に調査する手段を整備することは研究チームにとって重要な能力です。この調査により、モデルの振る舞いを監査し根本から問題を修正するための新しいツールが開発されました。

作者: OpenAI

関連リンク: View all GPT-5.5 System Card Safety (Apr 23, 2026), Inside our approach to the Model Spec Research (Mar 25, 2026), How we monitor internal coding agents for misalignment (Mar 19, 2026)

Where the goblins came from

要約

Summary

Key Points

Actionable checklist

結論

翻訳

概要

最初の兆候

ゴブリンの謎を解く

ゴブリンの終焉

なぜ重要か