interpretability の記事一覧 | DocsDigest

一致した記事数: 2

Anthropic共同創設者クリス・オラによる教皇レオ14世の回勅「Magnifica humanitas」に関する発言

Anthropic News / 2026/05/25

外部批判の必要性
モデルの不可解な内部状態
利益の公平な分配

ai safety interpretability governance ethics policy

モデル仕様へのアプローチの内側

OpenAI News / 2026/03/25

行動規範を公開
チェーン・オブ・コマンド
ルーブリックで解釈

model-spec chain-of-command safety defaults evaluation interpretability

前へ1 / 1次へ