alignment の記事一覧 | DocsDigest

一致した記事数: 9

Claude Opus 5 の導入

Anthropic News / 2026/07/24

Fable 5 級の性能を低コストで実現
コーディング・知識作業でSOTA
自己検証と反復が強化

claude-opus-5 llm coding cost-efficiency benchmarks alignment

長期ホライズンモデルの時代における安全性と整合性

OpenAI News / 2026/07/20

新たな時間的リスク
反復デプロイで改善
長期評価が必須

safety alignment long-running monitoring deployment robustness

GPT-Red: 堅牢性のための自己改善を解き放つ

OpenAI News / 2026/07/15

自己プレイで自動赤チーミング
プロンプト注入への耐性向上
安全性と整合性を継続改善

red-teaming self-play safety alignment prompt-injection robustness automation

誰もが恩恵を受けられるように構築する：私たちの計画

OpenAI News / 2026/06/08

全員のためのAGI
研究自動化（2028目標）
安全性と分散化重視

ai agi alignment safety governance economy

フロンティアAIに関する対話の拡大

Anthropic News / 2026/05/19

宗教伝統との対話開始
倫理リマインダーを実験
評価と調査を拡大予定

alignment ethics safety evaluation human-centered governance

ゴブリンはどこから来たのか

OpenAI News / 2026/04/29

報酬が語彙を強化
Nerdyから挙動が転移
報酬とデータを修正して鎮静化

reinforcement-learning reward-modeling fine-tuning data-filtering model-audit alignment

私たちの原則

OpenAI News / 2026/04/26

民主化推進
段階的デプロイ
安全と透明性

agi safety deployment infrastructure governance alignment

OpenAI Safety Fellowshipの発表

OpenAI News / 2026/04/06

期間: 2026/09/14-2027/02/05
支援: 月次支給・計算資源・APIクレジット
応募締切: 2026/05/03

safety alignment research fellowship ml benchmarks privacy

内部コーディングエージェントのミスアラインメントをどのように監視しているか

OpenAI News / 2026/03/19

GPT‑5.4で低遅延解析
30分以内に分類・重大度付与
中度約1,000件をエスカレーション

monitoring agents gpt-5.4 alignment security internal-deployments

前へ1 / 1次へ