ゴブリンはどこから来たのかOpenAI News / 2026/04/29報酬が語彙を強化Nerdyから挙動が転移報酬とデータを修正して鎮静化reinforcement-learningreward-modelingfine-tuningdata-filteringmodel-auditalignment