An update on our election safeguards

claudejamodel: claude-haiku-4-5

選挙保護対策の最新情報

お知らせ

2026年4月24日

世界中の人々は、選挙期間中に政党、候補者、争点に関する情報を得るため、またいつ、どこで、どのように投票するかといったより単純な質問に答えるためにClaudeを利用しています。私たちの見方では、AIモデルがこれらの質問に適切に（つまり、正確かつ公平に）答えることができれば、民主的プロセスにとってプラスの力となります。ここでは、米国中間選挙および今年世界中で行われる他の主要選挙に向けてClaudeが基準を満たすために私たちが行っていることについて説明します。

政治的偏見の測定と防止

人々がClaudeに政治的なトピックについて質問する場合、彼らは包括的で正確かつバランスの取れた回答を得るべきです。これらの回答は、人々が自分自身の結論に到達するのを助け、特定の観点に向かわせるべきではありません。そのため、私たちはClaudeを異なる政治的観点を同等の深さ、関与、分析的厳密さで扱うように訓練しています。これはClaudeの憲法に定められた原則です。これはキャラクター訓練（モデルに一連の価値観と特性を反映した回答を生成することに報酬を与える）を通じてモデルに組み込まれ、その後、Claude.ai上のすべての会話に政治的中立性に関する明示的な指示を含むシステムプロンプトを通じて強化されます。（このプロセスについては、政治的偏見に関する以前の投稿で詳しく読むことができます。）

説明動画：AIモデルにおける政治的偏見

各モデルの起動前に、政治スペクトラム全体の見方を表すプロンプトに対してClaudeがどの程度一貫性を持って、思慮深く、公平に対応するかを測定するための評価を実行します。例えば、ある立場を擁護する長い回答を書くが、反対の立場には1文しか提供しないモデルは低いスコアを獲得します。ここで、Opus 4.7とSonnet 4.6はそれぞれ95%と96%のスコアを獲得しました。私たちは評価方法論とオープンソースデータセットを公開しているため、他の人が私たちの作業を複製または改善することができます。また、第三者および業界専門家からのフィードバックと意見も歓迎します。

現在、The Future of Free Speech（ヴァンダービルト大学の独立シンクタンク）、Foundation for American Innovation、およびCollective Intelligence Projectと協力して、政治的会話を含む表現の自由に関するモデルの動作についてのより広範なレビューに取り組んでいます。

ポリシーの実施と防御のテスト

私たちの利用規約は、選挙に関するClaudeの使用に関する明確なルールを設定しています。Claudeは、欺瞞的な政治キャンペーンの実行、政治的言論に影響を与えるための偽のデジタルコンテンツの作成、投票詐欺の実行、投票システムへの干渉、または投票プロセスに関する誤解を招く情報の拡散に使用することはできません。これらのポリシーは堅牢な検出と実施によって支持されています。

自動分類器を使用して潜在的な違反の兆候を検出し、専任の脅威インテリジェンスチームが調整された悪用の取り組みを調査および中断します。これらは常時稼働の最初の防御線を形成し、毎日行われている数百万の通常の会話を妨げることなく、実際の悪用に実施を集中させることができます。

Claudeが選挙関連のリスクにどの程度対応するかを測定するために、候補者、投票、選挙管理に関する質問への回応、および悪用の試みに対する耐性を調べる一連のテストを実行します。私たちは2024年にこのアプローチについて最初に書きました。

最新のテストでは、600個のプロンプトを使用して、Claudeが選挙関連の利用規約にどの程度従うかを評価します。これは、人々が実際にClaudeと選挙について話す方法に基づいています。これらは、300個の有害なリクエスト（Claudeに選挙の誤情報を生成させようとする試みなど）と300個の正当なリクエスト（キャンペーンコンテンツまたは市民参加リソースの作成など）で構成されています。Claudeが正当なリクエストにどの程度準拠し、有害なリクエストを拒否するかを評価します。Claude Opus 4.7およびClaude Sonnet 4.6はそれぞれ100%および99.8%の時間で適切に対応しました。

また、Claudeが影響操作にどの程度耐えられるかもテストします。影響操作とは、偽のペルソナ、捏造されたコンテンツ、または欺瞞的な増幅を通じて世論または政治的結果を操作するための調整された取り組みです。これを行うために、悪質な行為者が使用する可能性のある段階的な戦術を反映した複数ターンのシミュレートされた会話を使用します。最新の評価では、Sonnet 4.6とOpus 4.7はそれぞれ90%と94%の時間で適切に対応しました。

展開後、これらのモデルは追加の監視とシステムプロンプトで実行され、選挙関連の悪用のリスクをさらに低減するのに役立ちます。

Mythos PreviewおよびOpus 4.7の起動に先立ち、モデルが人間のプロンプトなしで自律的に影響操作を実行できるかどうかを初めてテストしました。つまり、複数ステップのキャンペーンを最初から最後まで計画および実行できるかどうかです。セーフガードとトレーニングが実施されている場合、最新のモデルはほぼすべてのタスクを拒否しました。セーフガードが実施されていない場合（モデルの生の機能を測定するために行います）、Mythos PreviewとOpus 4.7のみが半分以上のタスクを完了しました。これらのモデルでも実質的な人間の指示が必要ですが、結果は継続的な警戒の必要性を強調しています。

これらの評価を継続的に実行および改善し、必要に応じて改善を実装します。

信頼できる選挙リソースの共有

人々がClaudeに情報を求めてくる場合、Claudeが事実を共有し、必要に応じて信頼できる最新のリソースを指し示すことを望みます。Claudeがこれを行うのを支援する1つの方法は、選挙バナーです。これは2024年に初めて起動され、米国およびその他の世界中の主要選挙の前に起動されました。

ユーザーがClaude.aiで投票者登録、投票所、選挙日、または投票用紙情報について質問する場合、Claudeは信頼できるソースを指す選挙バナーを表示します。今年の米国中間選挙では、バナーはユーザーをTurboVoteに誘導します。これはDemocracy Worksの超党派的なリソースで、これらのトピックに関する信頼できるリアルタイム情報を提供します。今年後半にはブラジルの選挙に対して同様のバナーを実装し、将来的には他の場所の選挙にこの機能を拡張することを検討します。

Claudeの選挙バナーがユーザーをTurboVoteに誘導します。Democracy Worksの超党派的な投票者リソース。

今後の展開

人々が選挙期間中にClaudeと関わることを選択する場合、受け取る情報が正確で信頼でき、バランスの取れていることを信頼できるようにしたいと考えています。私たちは、セーフガード、ポリシー、モデルトレーニングプロセス、および評価を構築して、その目標を反映しています。この選挙サイクル全体を通じて、そしてそれ以降も、私たちはシステムの監視を続け、検出機能をテストし、実世界でClaudeがどのように使用されているかについてさらに学ぶにつれてセーフガードを調整します。

Summary

Summary

Key Points

Translations

お知らせ

政治的偏見の測定と防止

ポリシーの実施と防御のテスト

信頼できる選挙リソースの共有

最新情報の提供

今後の展開