interpretability Articles | DocsDigest

Matched posts: 2

Anthropic co-founder Chris Olah's remarks on Pope Leo XIV's encyclical "Magnifica humanitas"

Anthropic News / May 25, 2026

外部批判の必要性
モデルの不可解な内部状態
利益の公平な分配

ai safety interpretability governance ethics policy

Inside our approach to the Model Spec

OpenAI News / Mar 25, 2026

行動規範を公開
チェーン・オブ・コマンド
ルーブリックで解釈

model-spec chain-of-command safety defaults evaluation interpretability

Previous1 / 1Next