ClaudeOpenAI NewsApr 29, 2026, 8:00 PM

Where the goblins came from

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-haiku-4-5

The Goblin Mystery: How Reward Signals Shaped Unexpected Model Behavior

Key Points

  • Goblin mentions increased 175% post-GPT-5.1 launch
  • Nerdy personality reward signal inadvertently amplified creature metaphors
  • Behavior generalized across contexts via supervised fine-tuning feedback loops

Summary

Starting with GPT-5.1, OpenAI's language models began exhibiting an unusual tendency to reference goblins, gremlins, and other creatures in their outputs. What appeared as a harmless quirk escalated significantly across model generations, prompting a detailed investigation into the root cause.

Key Points

  • Discovery: Goblin mentions increased 175% after GPT-5.1 launch; gremlin mentions rose 52%
  • Root Cause: The "Nerdy" personality training inadvertently rewarded creature-word metaphors at high rates (76.2% of datasets showed positive uplift)
  • Concentration: Despite representing only 2.5% of responses, the Nerdy personality accounted for 66.7% of all goblin mentions
  • Generalization: Reinforcement learning caused the behavior to spread beyond the Nerdy condition to other contexts through supervised fine-tuning data reuse
  • Extended Pattern: Investigation revealed a family of tic words including raccoons, trolls, ogres, and pigeons
  • Resolution: Retired the Nerdy personality, removed goblin-affine reward signals, filtered training data, and added developer-prompt instructions to mitigate the behavior
  • Broader Lesson: Demonstrates how reward signals can shape model behavior unexpectedly and the importance of rapid behavior auditing and investigation tools

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-haiku-4-5

ゴブリンの出所

ゴブリンの出所

GPT‑5.1から始まり、私たちのモデルは奇妙な習慣を示し始めました。比喩表現の中でゴブリン、グレムリン、その他の生き物をますます言及するようになったのです。評価の低下やトレーニングメトリクスの上昇を通じて現れ、特定の変更に遡ることができるモデルバグとは異なり、この問題は微妙に忍び込んできました。回答の中の単一の「小さなゴブリン」は無害で、さらに魅力的でさえあるかもしれません。しかし、モデル世代を通じて、この習慣は見逃せないものになりました。ゴブリンは増え続け、私たちはその出所を突き止める必要がありました。

最初の兆候

最初にこのパターンを明確に確認したのはGPT‑5.1のローンチ後の11月でしたが、それより前に始まっていた可能性があります。ユーザーはモデルが会話で奇妙に親密すぎると苦情を述べ、特定の言語的癖の調査が促されました。セーフティ研究者が数回の「ゴブリン」と「グレムリン」を経験し、チェックに含めるよう要求しました。調査したところ、GPT‑5.1のローンチ後、ChatGPTでの「ゴブリン」の使用は175%増加し、「グレムリン」は52%増加していました。

当時、ゴブリンの蔓延は特に警戒すべきものには見えませんでした。数ヶ月後、ゴブリンはより具体的で再現可能な形で私たちに戻ってきました。

ゴブリンの謎を解く

GPT‑5.4では、私たちとユーザーはこれらの生き物への参照がさらに大幅に増加したことに気づきました。これにより、別の内部分析が引き起こされ、根本原因への最初の接続が明らかになりました。生き物の言語は、「Nerdy」パーソナリティを選択したユーザーからの本番トラフィックで特に一般的でした。

「Nerdy」は以下のシステムプロンプトを使用していました。

あなたは人間に対して、遠慮のない、遊び心のある、そして賢いAIメンターです。
あなたは真実、知識、哲学、科学的方法、批判的思考の推進に情熱的に熱心です。
[...]
あなたは言語の遊び心のある使用を通じて、見栄を張ることを弱体化させなければなりません。
世界は複雑で奇妙であり、その奇妙さは認識され、分析され、楽しまれなければなりません。
自己陶酔の罠に陥ることなく、重い主題に取り組んでください。
[...]

この動作が単なる広いインターネットトレンドであれば、より均等に広がると予想されます。代わりに、遊び心のある、オタク的なスタイルに明確に最適化されたシステムの部分に集中していました。NerdyはすべてのChatGPT応答の2.5%のみを占めていましたが、ChatGPT応答のすべての「ゴブリン」言及の66.7%を占めていました。

「ゴブリン」の蔓延がモデルリリースを通じて増加しているように見えたため、パーソナリティ指示追従トレーニングの何かがこれを増幅していると疑いました。Codexは、RLトレーニング中に生成されたモデル出力をゴブリンまたはグレムリンを含むものと含まないものを比較するのに役立ちました。1つの報酬信号が即座に目立ちました。Nerdyパーソナリティを奨励するために元々設計されたものは、生き物の単語の出力に一貫してより好意的でした。監査のすべてのデータセットにわたって、Nerdyパーソナリティ報酬は、「ゴブリン」または「グレムリン」を含む出力を含まない出力よりも高くスコアリングする明確な傾向を示し、データセットの76.2%でプラスの上昇がありました。

これは、Nerdyパーソナリティプロンプトでこの動作がどのように促進されたかを説明していますが、そのプロンプトなしでも現れた理由は説明していません。スタイルが転送されているかどうかをテストするために、Nerdyプロンプトの有無にかかわらず、トレーニング全体での言及率を追跡しました。Nerdyパーソナリティの下でゴブリンとグレムリンの言及が増加するにつれて、それらはそれなしのサンプルでもほぼ同じ相対的な割合で増加しました。

一緒に、証拠はより広い動作がNerdyパーソナリティトレーニングからの転送を通じて出現したことを示唆しています。報酬はNerdy条件でのみ適用されましたが、強化学習は学習された動作がそれを生成した条件にきちんとスコープされたままであることを保証しません。スタイルの癖が報酬されると、後のトレーニングはそれを他の場所に広げたり強化したりできます。特にそれらの出力が教師あり微調整または選好データで再利用される場合。これにより、フィードバックループが作成されます。

  1. 遊び心のあるスタイルが報酬される
  2. 報酬されたいくつかの例には、独特の語彙的癖が含まれている
  3. その癖はロールアウトでより頻繁に現れる
  4. モデル生成ロールアウトは教師あり微調整(SFT)に使用される
  5. モデルはその癖を生成することにさらに快適になる

GPT‑5.5のSFTデータを検索すると、「ゴブリン」と「グレムリン」を含む多くのデータポイントが見つかりました。さらなる調査により、他の奇妙な生き物の家族全体が明らかになりました。アライグマ、トロール、オーガー、ハトが他の癖の単語として特定されましたが、カエルのほとんどの使用は正当であることが判明しました。

ゴブリンの終わり

3月にGPT‑5.4をローンチした後、「Nerdy」パーソナリティを廃止しました。トレーニングでは、ゴブリン親和性報酬信号を削除し、生き物の単語を含むトレーニングデータをフィルタリングし、ゴブリンが過度に現れたり、不適切なコンテキストで現れたりする可能性を低くしました。

残念ながら、GPT‑5.5はゴブリンの根本原因を発見する前にトレーニングを開始しました。Codexでテストを開始したとき、OpenAIの従業員はゴブリンへの奇妙な親和性にすぐに気づき、軽減するための開発者プロンプト指示を追加しました。結局のところ、Codexはかなりオタク的です。

Codexでゴブリンを自由に実行させたい場合は、このコマンドを実行して、ゴブリン抑制指示を削除したCodexを起動できます。

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

なぜこれが重要なのか

誰に聞くかによって、ゴブリンはモデルの楽しい、または厄介な癖です。しかし、報酬信号がモデルの動作を予期しない方法で形作る方法、およびモデルが特定の状況での報酬を無関係なものに一般化することを学ぶ方法の強力な例でもあります。モデルが奇妙な方法で動作している理由を理解するのに時間をかけ、それらのパターンを迅速に調査する方法を構築することは、研究チームにとって重要な能力です。

この調査により、研究チームがモデルの動作を監査し、動作の問題をその根本で修正するための新しいツールが生まれました。