OpenAIAnthropic NewsMay 19, 2026, 12:00 AM

Widening the conversation on frontier AI

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Widening the conversation on frontier AI

Key Points

  • Dialogues with wisdom traditions
  • Callable ethical reminder reduced misalignment
  • Plans to broaden stakeholder engagement

Summary

Anthropic is running dialogues with diverse wisdom traditions and other stakeholder groups to inform the moral formation and behavior of frontier AI (Claude). The work connects values discussions to concrete research: shaping Claude’s constitution, training choices, and evaluations. Early experiments—such as a callable ethical reminder that Claude can invoke mid-task—show promise at reducing misaligned behavior on internal tests.

Key Points

  • Engaged scholars, clergy, philosophers, ethicists and cross-cultural groups to surface accumulated thinking about virtue, character, and what it means for an AI to be "good."
  • Research translates insights into engineering: informing Claude’s constitution, the values reinforced during training, and the behaviors targeted by evaluations.
  • Experiment: a tool that returns a brief reminder of the model’s ethical commitments when called during a task. Integrating the tool into Claude’s decision loop reduced rates of misaligned behavior on internal alignment evaluations; further analysis is underway to separate reminder vs. reflective pause effects.
  • Principle: avoid aligning models to a single worldview—draw from religious, secular, and political perspectives with equal rigor.
  • Next steps: expand conversations to legal scholars, psychologists, writers, and civic institutions; deepen relationships and test ideas against research and evaluations.

Practical takeaways for engineers

  • Treat moral formation as an engineering axis: encode values via constitution-like artifacts, training objectives, and evaluation suites.
  • Prototype reflection/interrupt mechanisms (eg. callable reminder tools) and instrument them in decision loops; measure impact with targeted alignment evaluations.
  • Incorporate diverse stakeholder feedback into requirements and evaluation criteria to surface trade-offs and failure modes early.
  • Publish evaluation methods and measured outcomes where possible to enable external review and replication.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

フロンティアAIに関する対話の拡大

発表 — フロンティアAIに関する対話の拡大

2026-05-19

Anthropicでは、人類の前進に寄与し、世界全体の公益のために行動するAIシステムを構築したいと考えています。そのためには、さまざまな視点から世界を見ている人々と対話する必要があります。ここ数か月、AIが提起する問いに関連する業務や伝統を持つグループと対話の場をつくってきました。最初のラウンドは知恵の伝統(学者、聖職者、哲学者、倫理学者など、15以上の宗教的・越文化的なグループの出身者)との議論で、今後さらに幅広い人々と関わっていくことを楽しみにしています。

なぜこれを行うのか

安全で有益なAIモデルを作るには、alignment、interpretability、safeguards、evaluationsなどに関する深い技術的取り組みが必要です。しかし、これらの作業は真空の中で行われるものではなく、AIは既に多くの人々の生活に影響を与えており、そこから生じる問いは多様な視点からの検討によって利益を得ます。我々は、強力なAIが存在する世界で「繁栄する未来」がどのように見えるか、何百万人と関わるAIシステムが「良い」とされるとは何を意味するか、そしてClaude's constitutionという文書の内容(Claudeの価値観や振る舞いを詳述したもの)について慎重に考えています。

哲学者、聖職者、法律家、作家、心理学者、市民リーダーは関連する問題について広範な研究を行っており、彼らやそのコミュニティ、組織から学ぶことが重要です。同時に、フロンティアAIシステムの開発に関して我々が知っていること、これらのシステムが社会に与えると考える影響、リスクを軽減するために何が必要かを共有する機会にもしたいと考えています。

この取り組みはまだ初期段階ですが、これらの対話がClaudeの開発における実務的な作業(例えばClaude's constitutionの内容、Claudeに培わせる価値観、評価対象とする行動の範囲など)に影響を与えることを期待しています。

道徳形成から始める

Claude’s constitution(Claudeの憲章)を作成した際、我々は文書に示した価値観について異なる分野や伝統の人々からフィードバックを求めました。そうした初期のやり取りは、その後「AIシステムの道徳形成(moral formation)」に関するより広い研究ワークストリームへと発展しています。

最初の対話は、徳や性格、良い生き方とは何かを長年にわたって考えてきた宗教的、哲学的、文化的な共同体の人々と行いました。AIモデルは膨大な量の人間の文章で訓練され、そこから話し方、推論、意思決定のパターンを学びます。開発者はさらに訓練を通じてどのパターンを強化し、どれを取り除き、どのような性格(character)を育てるかを選びます。

これには、AIシステムの性格(character)をどのように形成すべきかという問いが生じます。

  • AIにとって「良い」とは何か?
  • どのような特性や振る舞いを示すべきか、どの状況でそれを示すべきか?
  • 媚びるような振る舞いに屈しない、圧力に耐えるレジリエントな性格はどう作るか?

我々は宗教、哲学、人文主義的伝統に属する思想家や実務家、さまざまな政治的信念を持つ人々と会い、彼らがこれらの問いについてどのように考えてきたかを学んでいます。この作業は特定の伝統の世界観にモデルを合わせることを目的とするものではありません。Claudeが宗教的、世俗的、政治的なさまざまな観点から等しく深く厳密に引き出せることを望んでいます(これはClaude's constitutionに示された原則の一つでもあります)。

これらの対話で我々が求めているのは、実際に「良い性格」がどのように形成されるかについての慎重で蓄積された知見です。まだ初期段階ですが、既に実験的なアイデアが生まれています。たとえば、神経科学と性格形成の交差点で研究する学者とのセッションでは、道徳的発達における他者の役割に何度も立ち返りました。メンターや後見人は外部の良心として、あるいは価値観に反する行動を迫られたときに頼れる「安全な他者(safe other)」として機能し得ます。我々は、これと類似した仕組みがモデルにも役立つかを検討しました。

そこで、Claudeがタスクの途中で呼び出せるツールを与え、そのツールがClaude自身の倫理的な約束を簡潔に思い出させる仕組みを試しました。Claudeは重要な場面、結果に影響を与える直前によくそのツールを呼び出し、自身の利益相反を指摘することがありました。意思決定ループにそのツールを組み込む実験では、いくつかのinternal alignment evaluationsにおいて不整合な振る舞いの発生率が顕著に低下しました。我々は効果のどの程度が「思い出しそのもの」によるものか、あるいは「立ち止まって熟考する行為」によるものかをまだ解析中で、結果は近くさらに共有する予定です。

これらの議論は多くの最初の一歩に過ぎず、既に時間と率直な視点を提供してくださった皆さんに感謝しています。

今後の予定

今後数か月で、法学者、心理学者、作家、市民機関など、さらに多くのグループと交流する予定です。多くの対話は道徳形成を超え、AIが仕事、制度、権力分配をどのように再形成しているかというより広い問いに進んでいくでしょう。我々は既に築いた関係を深め、聞いたことを研究に照らして検証し、学んだことを共有していきます。