信頼できる第三者評価のための共通プレイブックOpenAI News / 2026/05/29ハーネスを明示主張と証拠を一致脆弱性を予算で検証evaluationharnesssafeguardstool-usecontaminationbudgetablation