OpenAIAnthropic News2026/05/19 0:00

Widening the conversation on frontier AI

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

フロンティアAIに関する対話の拡大

Key Points

  • 宗教伝統との対話開始
  • 倫理リマインダーを実験
  • 評価と調査を拡大予定

Summary

AnthropicはClaudeの価値観・行動を形作るため、宗教・哲学・倫理などの「知恵の伝統」と対話を開始しました。初期の取り組みとして、モデルの意思決定ループに「倫理的リマインダー」ツールを挿入する実験を行い、内部評価で不適合行動が低下する結果を確認しました。成果は初期段階であり、効果の因果要因(リマインダーそのものか内省のプロセスか)は未確定です。

Key Points

  • 対話対象: 15を超える宗教・文化・哲学のグループ(学者、聖職者、倫理学者など)
  • 目的: Claudeの“憲法”や訓練する価値観・評価基準の検討に外部知見を取り込む
  • 実験: モデルがタスク中に呼び出せる短い倫理リマインダーを導入し、重要局面での呼出し頻度と行動変化を観察
  • 結果: 内部の複数の整合性評価で不適合行動が顕著に減少。ただし「リマインダー効果」と「内省による停止効果」の切り分けが必要
  • エンジニア向け示唆:
    • モデルの決定ループに外部チェックポイント(倫理コール)を組み込む設計を検討
    • 評価実験は介入ごとに因果推論ができるよう設計する(対照群、A/B、因果分解)
    • 特定の思想に偏らない多様な視点をデータ収集・価値定義に反映する
  • 次の展開: 法学者、心理学者、作家、公共機関などとの対話を拡大し、得られた知見を研究と実装に反映・共有予定

Practical actions for engineers

  • 決定ループに簡易な『倫理リマインダーAPI』を挿入して、呼出しトリガーと出力をログ化し評価する
  • リマインダーの文面・頻度・呼出し条件をファインチューニングし、効果測定を明確化する
  • 評価指標を整合性・堅牢性・回避(sycophancy)傾向で分け、長期的な堅牢性テストを計画する

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

フロンティアAIに関する対話の拡大

発表 — フロンティアAIに関する対話の拡大

2026-05-19

Anthropicでは、人類の前進に寄与し、世界全体の公益のために行動するAIシステムを構築したいと考えています。そのためには、さまざまな視点から世界を見ている人々と対話する必要があります。ここ数か月、AIが提起する問いに関連する業務や伝統を持つグループと対話の場をつくってきました。最初のラウンドは知恵の伝統(学者、聖職者、哲学者、倫理学者など、15以上の宗教的・越文化的なグループの出身者)との議論で、今後さらに幅広い人々と関わっていくことを楽しみにしています。

なぜこれを行うのか

安全で有益なAIモデルを作るには、alignment、interpretability、safeguards、evaluationsなどに関する深い技術的取り組みが必要です。しかし、これらの作業は真空の中で行われるものではなく、AIは既に多くの人々の生活に影響を与えており、そこから生じる問いは多様な視点からの検討によって利益を得ます。我々は、強力なAIが存在する世界で「繁栄する未来」がどのように見えるか、何百万人と関わるAIシステムが「良い」とされるとは何を意味するか、そしてClaude's constitutionという文書の内容(Claudeの価値観や振る舞いを詳述したもの)について慎重に考えています。

哲学者、聖職者、法律家、作家、心理学者、市民リーダーは関連する問題について広範な研究を行っており、彼らやそのコミュニティ、組織から学ぶことが重要です。同時に、フロンティアAIシステムの開発に関して我々が知っていること、これらのシステムが社会に与えると考える影響、リスクを軽減するために何が必要かを共有する機会にもしたいと考えています。

この取り組みはまだ初期段階ですが、これらの対話がClaudeの開発における実務的な作業(例えばClaude's constitutionの内容、Claudeに培わせる価値観、評価対象とする行動の範囲など)に影響を与えることを期待しています。

道徳形成から始める

Claude’s constitution(Claudeの憲章)を作成した際、我々は文書に示した価値観について異なる分野や伝統の人々からフィードバックを求めました。そうした初期のやり取りは、その後「AIシステムの道徳形成(moral formation)」に関するより広い研究ワークストリームへと発展しています。

最初の対話は、徳や性格、良い生き方とは何かを長年にわたって考えてきた宗教的、哲学的、文化的な共同体の人々と行いました。AIモデルは膨大な量の人間の文章で訓練され、そこから話し方、推論、意思決定のパターンを学びます。開発者はさらに訓練を通じてどのパターンを強化し、どれを取り除き、どのような性格(character)を育てるかを選びます。

これには、AIシステムの性格(character)をどのように形成すべきかという問いが生じます。

  • AIにとって「良い」とは何か?
  • どのような特性や振る舞いを示すべきか、どの状況でそれを示すべきか?
  • 媚びるような振る舞いに屈しない、圧力に耐えるレジリエントな性格はどう作るか?

我々は宗教、哲学、人文主義的伝統に属する思想家や実務家、さまざまな政治的信念を持つ人々と会い、彼らがこれらの問いについてどのように考えてきたかを学んでいます。この作業は特定の伝統の世界観にモデルを合わせることを目的とするものではありません。Claudeが宗教的、世俗的、政治的なさまざまな観点から等しく深く厳密に引き出せることを望んでいます(これはClaude's constitutionに示された原則の一つでもあります)。

これらの対話で我々が求めているのは、実際に「良い性格」がどのように形成されるかについての慎重で蓄積された知見です。まだ初期段階ですが、既に実験的なアイデアが生まれています。たとえば、神経科学と性格形成の交差点で研究する学者とのセッションでは、道徳的発達における他者の役割に何度も立ち返りました。メンターや後見人は外部の良心として、あるいは価値観に反する行動を迫られたときに頼れる「安全な他者(safe other)」として機能し得ます。我々は、これと類似した仕組みがモデルにも役立つかを検討しました。

そこで、Claudeがタスクの途中で呼び出せるツールを与え、そのツールがClaude自身の倫理的な約束を簡潔に思い出させる仕組みを試しました。Claudeは重要な場面、結果に影響を与える直前によくそのツールを呼び出し、自身の利益相反を指摘することがありました。意思決定ループにそのツールを組み込む実験では、いくつかのinternal alignment evaluationsにおいて不整合な振る舞いの発生率が顕著に低下しました。我々は効果のどの程度が「思い出しそのもの」によるものか、あるいは「立ち止まって熟考する行為」によるものかをまだ解析中で、結果は近くさらに共有する予定です。

これらの議論は多くの最初の一歩に過ぎず、既に時間と率直な視点を提供してくださった皆さんに感謝しています。

今後の予定

今後数か月で、法学者、心理学者、作家、市民機関など、さらに多くのグループと交流する予定です。多くの対話は道徳形成を超え、AIが仕事、制度、権力分配をどのように再形成しているかというより広い問いに進んでいくでしょう。我々は既に築いた関係を深め、聞いたことを研究に照らして検証し、学んだことを共有していきます。