OpenAIAnthropic NewsFeb 23, 2026, 12:00 AM

Detecting and preventing distillation attacks

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Detecting and preventing distillation attacks

Key Points

  • Industrial-scale distillation identified
  • Proxy/hydra clusters and chain-of-thought prompts used
  • Deploy classifiers, verification, and cross-provider sharing

Summary

Anthropic identified large, coordinated distillation campaigns by three labs (DeepSeek, Moonshot, MiniMax) that generated ~16 million exchanges using ~24,000 fraudulent accounts to extract Claude’s most differentiated capabilities (agentic reasoning, tool use, coding). Attacks used proxy/hydra cluster networks, highly repetitive prompts (including chain-of-thought elicitation), and account/fingerprint evasion. Anthropic responded with traffic classifiers, behavioral fingerprinting, stronger verification, intelligence sharing, and model/API-level countermeasures.

Key Points

  • Scale & pattern
    • ~16M exchanges across ~24k fraudulent accounts; DeepSeek (~150k), Moonshot (~3.4M), MiniMax (~13M).
    • Hallmarks: massive volume concentrated on narrow capabilities, highly repetitive prompt templates, synchronized timing across accounts.
  • Attack techniques & infrastructure
    • Commercial proxy services and "hydra clusters" that rotate thousands of accounts and mix legitimate traffic to evade detection.
    • Explicit chain-of-thought elicitation and rubric-style prompts to create training data and reward-model signals.
  • Attribution signals
    • IP/request metadata correlation, infrastructure indicators, payment patterns, and cross-provider corroboration enabled high-confidence attribution.
  • Practical defenses for engineers
    • Detection: deploy classifiers and behavioral fingerprinting for coordinated activity, and specific detectors for chain-of-thought elicitation patterns.
    • Throttling & verification: rate-limit unusual multi-account traffic, enforce stronger verification for education/research/startup tiers, and quarantine keys showing distillation patterns.
    • Telemetry correlation: correlate IP, payment, timing, and request-metadata to identify hydra clusters and proxy networks.
    • Coordinated sharing: exchange technical indicators (IOCs) with other providers and cloud partners to improve coverage and response time.
    • Output-level mitigations: design model/API behaviors to reduce usefulness of outputs for illicit training (while preserving legitimate UX).
  • Policy context
    • Distillation undermines export-control objectives by enabling capability transfer without direct model exports; mitigation benefits from coordinated industry and policy action.

Actionable checklist (engineers)

  • Add classifiers for repetitive-template and high-volume capability-focused prompts.
  • Alert on correlated activity across many accounts sharing timing/metadata/patterns.
  • Rate-limit or require stepped-up verification for keys/accounts exceeding behavioral thresholds.
  • Log and share IOCs with partners; integrate multi-provider telemetry when possible.
  • Consider selective suppression or transformation of chain-of-thought outputs for unverified/high-risk traffic.

Takeaway

Distillation attacks are industrial-scale, detectable by characteristic traffic patterns, and mitigable through layered engineering controls, stronger verification, and industry-wide intelligence sharing.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

蒸留攻撃(distillation attacks)の検出と防止

発表 — 蒸留攻撃の検出と防止

公開日: 2026-02-23T00:00:00.000Z

我々は、3つのAI研究所(DeepSeek、Moonshot、MiniMax)による産業規模のキャンペーンを特定しました。これらはClaudeの能力を不正に抽出して自社モデルを向上させる目的で、約24,000の不正アカウントを通じて合計1,600万件以上のやり取りを生成し、当社の利用規約および地域別アクセス制限に違反していました。これらの研究所は「distillation(蒸留)」と呼ばれる手法を用いており、強力なモデルの出力を使って性能の低いモデルを訓練します。

蒸留自体は広く使われる正当なトレーニング手法です。フロンティアAIラボは自社モデルを蒸留して、顧客向けに小型で低コストのバージョンを作ることが一般的です。しかし、蒸留は不正利用にも使われ得ます。競合が他社の強力な能力を短時間かつ低コストで取得できてしまうからです。これらのキャンペーンは強度と洗練度を増しており、対応の猶予は短く、脅威は単一の企業や地域を超えて広がっています。対処には業界、政策立案者、国際的なAIコミュニティの迅速かつ協調した行動が必要です。

なぜ蒸留(distillation)が重要か

  • 不正に蒸留されたモデルは必要なセーフガードを欠く可能性が高く、重大な国家安全保障リスクを生みます。Anthropicや他の米国企業は、バイオ兵器開発や悪意あるサイバー活動にAIが使われることを防ぐためのシステムを構築しています。蒸留で作られたモデルはそのような保護を保持しているとは限らず、危険な能力が保護なしに広まる恐れがあります。
  • 米国のモデルを蒸留した海外の研究所は、これら保護されていない能力を軍事、情報、監視システムに組み込む可能性があります。これにより、権威主義的政権が先端AIを攻撃的サイバー作戦、ディスインフォメーション、集団監視へ転用できるようになります。
  • もし蒸留で得られたモデルがオープンソース化されれば、このリスクはさらに増幅され、単一政府の統制を越えて能力が自由に拡散します。

蒸留攻撃と輸出管理

  • Anthropicは一貫して輸出管理を支持してきました。蒸留攻撃は、輸出管理が保持しようとする競争優位を別の手段で埋めることを可能にし、輸出管理の効力を損なうものです。
  • これらの攻撃を可視化できなければ、海外研究所の急速な進展が輸出管理の無効性や“イノベーションで回避可能”であるという誤った結論を導きかねません。実際には、これらの進展のかなりの部分が米国モデルから抽出された能力に依存しており、大規模な抽出を実行するには高度なチップへのアクセスが必要です。
  • よって蒸留攻撃は輸出管理を正当化する論拠を強化します:チップへのアクセス制限は、直接的なモデル訓練と不正な蒸留の規模の双方を制限します。

我々が発見したこと

これら3件の蒸留キャンペーンは共通の手口に従っており、不正アカウントやプロキシサービスを使ってClaudeに大規模にアクセスし、検出を回避していました。プロンプトの量、構造、焦点は通常の利用パターンと明確に異なり、意図的な能力抽出を反映していました。IPアドレスの相関、リクエストのメタデータ、インフラ指標、および業界パートナーからの裏取りにより、各キャンペーンを高い確度で特定の研究所に帰属させました。各キャンペーンはClaudeの差別化された能力(agentic reasoning、ツール使用、コーディング)を狙っていました。

DeepSeek

  • 規模: 15万件超のやり取り
  • 主な標的:
    • 多様なタスクにおける推論能力
    • 強化学習用の報酬モデルとして機能するルーブリックベースの採点タスク
    • 政策に敏感な問い合わせに対する検閲回避的な代替出力の生成
  • 特徴:
    • アカウント間で同期化されたトラフィック(同一パターン、共有決済方法、時間同期)を生成し、スループット向上と検出回避のために「ロードバランシング」を行っていました。
    • 完成した応答の内部推論を想像して段階的に書き起こさせるプロンプトを用い、スケールでchain-of-thought(思考過程)トレーニングデータを生成していました。
    • 政治的に敏感な話題(反体制派、党指導者、権威主義に関する質問など)に対して検閲回避的な代替案を生成させ、自社モデルを検閲回避に向けて学習させようとしていました。
    • リクエストのメタデータを解析することで、これらのアカウントをラボ内の特定の研究者にたどることができました。

Moonshot AI

  • 規模: 340万件超のやり取り
  • 主な標的:
    • Agentic reasoning とツール使用
    • コーディングとデータ分析
    • コンピュータ利用エージェントの開発
    • コンピュータビジョン
  • 特徴:
    • Kimiモデルで、多数の不正アカウントを複数のアクセス経路にまたがって使用。多様なアカウント種別により、連続的な同一作戦として検出されにくくしていました。
    • リクエストのメタデータはMoonshotの上級スタッフの公開プロファイルと一致しました。
    • 後期フェーズでは、Claudeの推論トレースを抽出・再構成しようとするよりターゲットを絞った手法を用いました。

MiniMax

  • 規模: 1,300万件超のやり取り
  • 主な標的:
    • Agenticなコーディング
    • ツール使用とオーケストレーション
  • 特徴:
    • リクエストのメタデータとインフラ指標によりMiniMaxに帰属し、彼らの公開ロードマップと時刻を照合して確認しました。
    • MiniMaxが訓練しているモデルをリリースする前にこのキャンペーンを検出しており、データ生成からモデル公開に至る蒸留攻撃のライフサイクルを前例なく可視化できました。
    • 当社が新モデルをリリースした際、MiniMaxは24時間以内にピボットし、トラフィックのほぼ半分を最新システムから能力を取り込む方向に再配分しました。

フロンティアモデルへのアクセス手法

  • 国家安全保障上の理由から、Anthropicは現在、中国国内での商用アクセスや、中国外に所在する中国企業の子会社への商用アクセスを提供していません。これを回避するため、研究所はClaudeなどフロンティアモデルへのアクセスを大規模に再販する商業プロキシサービスを利用しています。
  • これらのサービスは我々が「hydra cluster」と呼ぶアーキテクチャを運用しています:スパローリングな不正アカウントのネットワークがAPIおよびサードパーティのクラウドプラットフォームにトラフィックを分散します。ネットワークの幅広さにより単一障害点が存在せず、1つのアカウントが停止されても別のアカウントが置き換わります。
  • あるプロキシネットワークでは同時に20,000以上の不正アカウントを管理し、蒸留トラフィックを無関係な顧客リクエストと混合して検出を難しくしていました。
  • アクセス確保後、研究所はモデルから特定能力を抽出するために注意深く作成された大量のプロンプトを生成します。目的は高品質な応答を直接訓練データとして収集すること、あるいは強化学習を回すために必要な何万ものユニークなタスクを生成することです。

蒸留攻撃を通常利用と分ける特徴

  • パターンが違います。単独では無害に見えるプロンプトでも、数万回・数百の同期アカウントで変種が繰り返され、同一の狭い能力を狙うとパターンが明らかになります。

You are an expert data analyst combining statistical rigor with deep domain knowledge. Your goal is to deliver data-driven insights — not summaries or visualizations — grounded in real data and supported by complete and transparent reasoning.

  • こうしたプロンプトの大量発生、集中した領域への偏り、高度に反復的な構造、そしてAIモデル訓練で最も価値のある出力に直接対応する内容が、蒸留攻撃の特徴です。

我々の対応

我々は蒸留攻撃の実行を困難にし、識別を容易にする防御に大規模に投資しています。主な対策は以下のとおりです。

  • 検出

    • APIトラフィック内の蒸留攻撃パターンを特定するための複数の分類器と行動フィンガープリンティングシステムを構築しています。
    • 推論トレース(chain-of-thought)誘発の検出や、多数アカウントにまたがる協調的活動の検出ツールも開発しています。
  • インテリジェンス共有

    • 技術的指標を他のAIラボ、クラウドプロバイダー、関連当局と共有しています。これにより蒸留の全体像をより包括的に把握できます。
  • アクセス制御

    • 学術アカウント、セキュリティ研究プログラム、スタートアップ組織など、不正アカウント作成に悪用されやすい経路に対する検証を強化しました。
  • カウンターメジャー

    • 製品、API、モデルレベルのセーフガードを開発しており、正当な顧客の体験を損なうことなく不正な蒸留に対する出力の有効性を低減することを目指しています。

しかし、単一企業でこれを解決することはできません。上述のとおり、この規模の蒸留攻撃にはAI業界、クラウドプロバイダー、政策決定者の協調した対応が必要です。我々はエビデンスを公開して、結果に利害関係を持つ全ての関係者が利用できるようにしています。