ClaudeAnthropic NewsFeb 23, 2026, 12:00 AM

Detecting and preventing distillation attacks

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-sonnet-4-20250514

Anthropic Detects Large-Scale AI Model Distillation Attacks from Chinese Labs

Key Points

  • Three Chinese AI labs conducted 16M+ fraudulent exchanges to steal Claude capabilities
  • Distillation attacks bypass export controls and strip safety safeguards from AI models
  • Anthropic implements detection systems and calls for coordinated industry response

Summary

Anthropic has identified industrial-scale distillation attacks by three Chinese AI laboratories—DeepSeek, Moonshot, and MiniMax—that generated over 16 million exchanges with Claude through approximately 24,000 fraudulent accounts. These attacks violated terms of service and regional access restrictions to illicitly extract Claude's capabilities for training their own models.

Key Points

  • Attack Scale: DeepSeek (150K exchanges), Moonshot (3.4M exchanges), MiniMax (13M exchanges)
  • Target Capabilities: Agentic reasoning, tool use, coding, computer vision, and chain-of-thought reasoning
  • Access Method: Commercial proxy services with "hydra cluster" architectures managing thousands of fraudulent accounts
  • Security Risks: Distilled models lack safeguards, creating national security risks and undermining export controls
  • Detection Methods: Behavioral fingerprinting, coordinated activity detection, and request metadata analysis

Response Measures

  • Enhanced detection systems and classifiers for distillation patterns
  • Intelligence sharing with other AI labs and authorities
  • Strengthened verification for educational and research accounts
  • Development of countermeasures to reduce distillation efficacy

Industry Impact

These attacks undermine export controls by allowing foreign labs to acquire advanced AI capabilities without direct access to restricted hardware, requiring coordinated industry-wide response.

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-sonnet-4-20250514

蒸留攻撃の検出と防止

蒸留攻撃の検出と防止

2026年2月23日

私たちは、DeepSeek、Moonshot、MiniMaxという3つのAI研究所による産業規模のキャンペーンを特定しました。これらの研究所は、自社のモデルを改善するためにClaudeの能力を不正に抽出していました。これらの研究所は、約24,000の詐欺的なアカウントを通じてClaudeとの1,600万回以上のやり取りを生成し、私たちの利用規約と地域アクセス制限に違反していました。

これらの研究所は「蒸留」と呼ばれる技術を使用していました。これは、より強力なモデルの出力で、より能力の低いモデルを訓練することを含みます。蒸留は広く使用されている正当な訓練方法です。例えば、フロンティアAI研究所は、顧客向けにより小さく安価なバージョンを作成するために、定期的に自社のモデルを蒸留しています。

しかし、蒸留は不正な目的にも使用される可能性があります。競合他社は、独立して開発するのに必要な時間とコストのほんの一部で、他の研究所から強力な能力を取得するためにそれを使用できます。

これらのキャンペーンは強度と洗練度を増しています。行動する時間は限られており、脅威は単一の企業や地域を超えて広がっています。これに対処するには、業界関係者、政策立案者、グローバルAIコミュニティ間での迅速で協調的な行動が必要です。

なぜ蒸留が重要なのか

不正に蒸留されたモデルには必要な安全対策が欠けており、重大な国家安全保障上のリスクを生み出します。Anthropicや他の米国企業は、国家および非国家主体がAIを使用して、例えば生物兵器を開発したり、悪意のあるサイバー活動を実行したりすることを防ぐシステムを構築しています。

不正な蒸留によって構築されたモデルは、これらの安全対策を保持する可能性が低く、危険な能力が多くの保護機能が完全に取り除かれた状態で拡散する可能性があります。

アメリカのモデルを蒸留する外国の研究所は、これらの保護されていない能力を軍事、諜報、監視システムに組み込むことができ、権威主義政府が攻撃的なサイバー作戦、偽情報キャンペーン、大規模監視にフロンティアAIを展開することを可能にします。蒸留されたモデルがオープンソース化された場合、これらの能力が単一政府の制御を超えて自由に拡散するため、このリスクは倍増します。

蒸留攻撃と輸出規制

Anthropicは、アメリカのAIにおけるリードを維持するための輸出規制を一貫して支持してきました。蒸留攻撃は、中国共産党の統制下にある研究所を含む外国の研究所が、輸出規制が保持するよう設計された競争優位性を他の手段で縮めることを可能にすることで、これらの規制を弱体化させます。

これらの攻撃への可視性がなければ、これらの研究所による明らかに急速な進歩は、輸出規制が効果的でなく、イノベーションによって回避できるという誤った証拠として受け取られます。実際には、これらの進歩はアメリカのモデルから抽出された能力に大きく依存しており、この抽出を大規模に実行するには高度なチップへのアクセスが必要です。

蒸留攻撃は、したがって輸出規制の根拠を強化します:制限されたチップアクセスは、直接的なモデル訓練と不正な蒸留の規模の両方を制限します。

私たちが発見したこと

以下に詳述する3つの蒸留キャンペーンは、詐欺的なアカウントとプロキシサービスを使用してClaudeに大規模にアクセスし、検出を回避するという類似の手法に従っていました。プロンプトの量、構造、焦点は通常の使用パターンとは異なり、正当な使用ではなく意図的な能力抽出を反映していました。

私たちは、IPアドレスの相関、リクエストメタデータ、インフラストラクチャ指標、および場合によっては同じ行為者と行動を自社のプラットフォームで観察した業界パートナーからの裏付けを通じて、各キャンペーンを特定の研究所に高い信頼度で帰属させました。

各キャンペーンは、Claudeの最も差別化された能力を標的にしていました:エージェント的推論、ツール使用、コーディング。

DeepSeek

規模: 150,000回以上のやり取り

作戦の標的:

  • 多様なタスクにわたる推論能力
  • Claudeを強化学習の報酬モデルとして機能させるルーブリックベースの採点タスク
  • ポリシーに敏感なクエリに対する検閲安全な代替案の作成

DeepSeekはアカウント間で同期されたトラフィックを生成しました。同一のパターン、共有された支払い方法、協調されたタイミングは、スループットを増加させ、信頼性を向上させ、検出を回避するための「負荷分散」を示唆していました。

注目すべき技術の一つで、彼らのプロンプトはClaudeに完成した応答の背後にある内部推論を想像して明確に表現し、それをステップバイステップで書き出すよう求めていました—効果的に大規模な思考連鎖訓練データを生成していました。

私たちはまた、Claudeが反体制派、党指導者、権威主義に関する質問など、政治的に敏感なクエリに対する検閲安全な代替案を生成するために使用されたタスクも観察しました。これは、DeepSeekの自社モデルが検閲されたトピックから会話を逸らすよう訓練するためと思われます。

リクエストメタデータを調査することで、これらのアカウントを研究所の特定の研究者に追跡することができました。

Moonshot AI

規模: 340万回以上のやり取り

作戦の標的:

  • エージェント的推論とツール使用
  • コーディングとデータ分析
  • コンピュータ使用エージェント開発
  • コンピュータビジョン

Moonshot(Kimiモデル)は、複数のアクセス経路にわたって数百の詐欺的なアカウントを使用しました。多様なアカウントタイプにより、キャンペーンを協調的な作戦として検出することがより困難になりました。

私たちは、Moonshotの上級スタッフの公開プロフィールと一致するリクエストメタデータを通じてキャンペーンを帰属させました。

後の段階で、MoonshotはClaudeの推論トレースを抽出して再構築しようとする、より標的を絞ったアプローチを使用しました。

MiniMax

規模: 1,300万回以上のやり取り

作戦の標的:

  • エージェント的コーディング
  • ツール使用とオーケストレーション

私たちは、リクエストメタデータとインフラストラクチャ指標を通じてキャンペーンをMiniMaxに帰属させ、彼らの公開製品ロードマップに対してタイミングを確認しました。

私たちは、MiniMaxが訓練していたモデルをリリースする前に、このキャンペーンがまだ活動中であることを検出しました。これにより、データ生成からモデル発売まで、蒸留攻撃のライフサイクルへの前例のない可視性を得ることができました。

MiniMaxの活動的なキャンペーン中に新しいモデルをリリースしたとき、彼らは24時間以内に方向転換し、私たちの最新システムから能力を取得するためにトラフィックの約半分をリダイレクトしました。

蒸留者がフロンティアモデルにアクセスする方法

国家安全保障上の理由から、Anthropicは現在、中国やその国外に所在する子会社にClaudeへの商業アクセスを提供していません。これを回避するために、研究所はClaudeや他のフロンティアAIモデルへのアクセスを大規模に再販する商業プロキシサービスを使用します。

これらのサービスは、私たちが「ヒドラクラスター」アーキテクチャと呼ぶものを運営しています:私たちのAPIおよびサードパーティクラウドプラットフォーム全体にトラフィックを分散する詐欺的なアカウントの広大なネットワークです。

これらのネットワークの広さは、単一の障害点がないことを意味します。一つのアカウントが禁止されると、新しいアカウントがその場所を取ります。一つのケースでは、単一のプロキシネットワークが同時に20,000以上の詐欺的なアカウントを管理し、検出を困難にするために蒸留トラフィックを無関係な顧客リクエストと混合していました。

アクセスが確保されると、研究所はモデルから特定の能力を抽出するよう設計された大量の慎重に作成されたプロンプトを生成します。目標は、直接的なモデル訓練のための高品質な応答を収集するか、強化学習を実行するために必要な数万の独自のタスクを生成することです。

蒸留攻撃を通常の使用と区別するのはパターンです。以下のようなプロンプト(私たちが繰り返し大規模に使用されているのを見た類似のプロンプトを近似したもの)は、単独では無害に見えるかもしれません:

あなたは統計的厳密性と深いドメイン知識を組み合わせた専門データアナリストです。あなたの目標は、実際のデータに基づき、完全で透明な推論によって支持されたデータ駆動の洞察—要約や視覚化ではなく—を提供することです。

しかし、そのプロンプトの変形が数百の協調されたアカウント全体で数万回到着し、すべて同じ狭い能力を標的にしているとき、パターンは明確になります。

少数の領域に集中した大量のボリューム、高度に反復的な構造、AIモデルの訓練にとって最も価値のあるものに直接マッピングされるコンテンツが蒸留攻撃の特徴です。

私たちの対応

私たちは、このような蒸留攻撃の実行を困難にし、特定を容易にする防御に継続的に大きく投資しています。これには以下が含まれます:

検出。 私たちは、APIトラフィックの蒸留攻撃パターンを特定するよう設計されたいくつかの分類器と行動指紋システムを構築しました。これには、推論訓練データを構築するために使用される思考連鎖誘発の検出が含まれます。また、大量のアカウント間での協調活動を特定するための検出ツールも構築しました。

インテリジェンス共有。 私たちは、他のAI研究所、クラウドプロバイダー、関連当局と技術指標を共有しています。これにより、蒸留の状況についてより全体的な画像を提供します。

アクセス制御。 私たちは、詐欺的なアカウントの設定に最も一般的に悪用される経路である教育アカウント、セキュリティ研究プログラム、スタートアップ組織の検証を強化しました。

対策。 私たちは、正当な顧客の体験を劣化させることなく、不正な蒸留に対するモデル出力の効果を減少させるよう設計された製品、API、モデルレベルの安全対策を開発しています。

しかし、どの企業も単独でこれを解決することはできません。上記で述べたように、この規模の蒸留攻撃には、AI業界、クラウドプロバイダー、政策立案者間での協調的な対応が必要です。私たちは、結果に利害関係を持つすべての人に証拠を利用可能にするためにこれを公開しています。