推論モデルは思考の連鎖を制御するのが苦手だが、それは良いことだOpenAI News / 2026/03/05CoT制御率は極めて低い長い推論や追加訓練で制御性低下現状はCoT監視が有効な防護層chain-of-thoughtcotmonitoringevaluationsafetyrlprompting