OpenAIAnthropic News2026/02/23 0:00

Detecting and preventing distillation attacks

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

蒸留攻撃の検出と防止

Key Points

  • 3社による大規模抽出
  • チェーン・オブ・ソート誘導の悪用
  • 検出・共有・アクセス制御で対抗

Summary

AnthropicはDeepSeek、Moonshot、MiniMaxの3社による産業規模の「蒸留(distillation)」攻撃を検出しました。約24,000の不正アカウントから合計1,600万件超のやり取りが行われ、エージェンシー型推論、ツール利用、コーディングなどの高付加価値能力が標的になりました。攻撃はプロキシ/“hydra cluster”を用いてアクセスを拡散し、チェーン・オブ・ソート(内部推論の明示)を大量生成するなどの手口で能力抽出を容易にしていました。

Key Points

  • 規模と手口

    • DeepSeek: 15万件超、推論・チェーン・オブ・ソート生成、検閲回避プロンプト
    • Moonshot: 340万件超、エージェンシー/ツール利用/コード解析
    • MiniMax: 1,300万件超、エージェンシーコーディング/ツール編成(アクティブ検出)
    • 共通点: 大量・反復・特定能力への偏り、偽アカウントとプロキシ経由の分散アクセス
  • 検知と帰属の手がかり

    • リクエストメタデータ、IP相関、インフラ指標、行動フィンガープリント
    • ターゲット領域(agentic reasoning, tool use, coding)への高頻度・同型プロンプト
  • リスク

    • 取り出されたモデルは安全策を欠き、国家安全・サイバー攻撃・監視や偽情報拡散に悪用される可能性
    • 輸出規制を迂回する手段となり得る

Recommended actions for engineers

  • 監視と検知

    • APIトラフィックで「大量・高頻度・狭い能力領域への反復」パターンを検出するルールを設定
    • チェーン・オブ・ソート誘導プロンプトの検出器を導入(テキスト類似度や構造的シグネチャ)
    • アカウントメタデータ・IP・支払情報の相関分析を自動化
  • 緩和策

    • レート制限と異常スロットリングを能力別に導入
    • 教育/研究/スタートアップ向け経路の強化された検証フロー
    • 出力の汎化(モデル側で容易に蒸留されにくいフォーマットや抽象化)や機能ごとの出力制御
  • 運用と協力

    • 他事業者・クラウド・当局と指標を共有して横断的な検出を強化
    • IOCs(悪性プロキシ、アカウントクラスタ)を定期的にアップデートしブロック

短期的には検知ルールとメタデータ相関の強化、並行してプロダクト・API・モデルレベルの出力保護を進めることが現実的かつ効果的です。

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

蒸留攻撃(distillation attacks)の検出と防止

発表 — 蒸留攻撃の検出と防止

公開日: 2026-02-23T00:00:00.000Z

我々は、3つのAI研究所(DeepSeek、Moonshot、MiniMax)による産業規模のキャンペーンを特定しました。これらはClaudeの能力を不正に抽出して自社モデルを向上させる目的で、約24,000の不正アカウントを通じて合計1,600万件以上のやり取りを生成し、当社の利用規約および地域別アクセス制限に違反していました。これらの研究所は「distillation(蒸留)」と呼ばれる手法を用いており、強力なモデルの出力を使って性能の低いモデルを訓練します。

蒸留自体は広く使われる正当なトレーニング手法です。フロンティアAIラボは自社モデルを蒸留して、顧客向けに小型で低コストのバージョンを作ることが一般的です。しかし、蒸留は不正利用にも使われ得ます。競合が他社の強力な能力を短時間かつ低コストで取得できてしまうからです。これらのキャンペーンは強度と洗練度を増しており、対応の猶予は短く、脅威は単一の企業や地域を超えて広がっています。対処には業界、政策立案者、国際的なAIコミュニティの迅速かつ協調した行動が必要です。

なぜ蒸留(distillation)が重要か

  • 不正に蒸留されたモデルは必要なセーフガードを欠く可能性が高く、重大な国家安全保障リスクを生みます。Anthropicや他の米国企業は、バイオ兵器開発や悪意あるサイバー活動にAIが使われることを防ぐためのシステムを構築しています。蒸留で作られたモデルはそのような保護を保持しているとは限らず、危険な能力が保護なしに広まる恐れがあります。
  • 米国のモデルを蒸留した海外の研究所は、これら保護されていない能力を軍事、情報、監視システムに組み込む可能性があります。これにより、権威主義的政権が先端AIを攻撃的サイバー作戦、ディスインフォメーション、集団監視へ転用できるようになります。
  • もし蒸留で得られたモデルがオープンソース化されれば、このリスクはさらに増幅され、単一政府の統制を越えて能力が自由に拡散します。

蒸留攻撃と輸出管理

  • Anthropicは一貫して輸出管理を支持してきました。蒸留攻撃は、輸出管理が保持しようとする競争優位を別の手段で埋めることを可能にし、輸出管理の効力を損なうものです。
  • これらの攻撃を可視化できなければ、海外研究所の急速な進展が輸出管理の無効性や“イノベーションで回避可能”であるという誤った結論を導きかねません。実際には、これらの進展のかなりの部分が米国モデルから抽出された能力に依存しており、大規模な抽出を実行するには高度なチップへのアクセスが必要です。
  • よって蒸留攻撃は輸出管理を正当化する論拠を強化します:チップへのアクセス制限は、直接的なモデル訓練と不正な蒸留の規模の双方を制限します。

我々が発見したこと

これら3件の蒸留キャンペーンは共通の手口に従っており、不正アカウントやプロキシサービスを使ってClaudeに大規模にアクセスし、検出を回避していました。プロンプトの量、構造、焦点は通常の利用パターンと明確に異なり、意図的な能力抽出を反映していました。IPアドレスの相関、リクエストのメタデータ、インフラ指標、および業界パートナーからの裏取りにより、各キャンペーンを高い確度で特定の研究所に帰属させました。各キャンペーンはClaudeの差別化された能力(agentic reasoning、ツール使用、コーディング)を狙っていました。

DeepSeek

  • 規模: 15万件超のやり取り
  • 主な標的:
    • 多様なタスクにおける推論能力
    • 強化学習用の報酬モデルとして機能するルーブリックベースの採点タスク
    • 政策に敏感な問い合わせに対する検閲回避的な代替出力の生成
  • 特徴:
    • アカウント間で同期化されたトラフィック(同一パターン、共有決済方法、時間同期)を生成し、スループット向上と検出回避のために「ロードバランシング」を行っていました。
    • 完成した応答の内部推論を想像して段階的に書き起こさせるプロンプトを用い、スケールでchain-of-thought(思考過程)トレーニングデータを生成していました。
    • 政治的に敏感な話題(反体制派、党指導者、権威主義に関する質問など)に対して検閲回避的な代替案を生成させ、自社モデルを検閲回避に向けて学習させようとしていました。
    • リクエストのメタデータを解析することで、これらのアカウントをラボ内の特定の研究者にたどることができました。

Moonshot AI

  • 規模: 340万件超のやり取り
  • 主な標的:
    • Agentic reasoning とツール使用
    • コーディングとデータ分析
    • コンピュータ利用エージェントの開発
    • コンピュータビジョン
  • 特徴:
    • Kimiモデルで、多数の不正アカウントを複数のアクセス経路にまたがって使用。多様なアカウント種別により、連続的な同一作戦として検出されにくくしていました。
    • リクエストのメタデータはMoonshotの上級スタッフの公開プロファイルと一致しました。
    • 後期フェーズでは、Claudeの推論トレースを抽出・再構成しようとするよりターゲットを絞った手法を用いました。

MiniMax

  • 規模: 1,300万件超のやり取り
  • 主な標的:
    • Agenticなコーディング
    • ツール使用とオーケストレーション
  • 特徴:
    • リクエストのメタデータとインフラ指標によりMiniMaxに帰属し、彼らの公開ロードマップと時刻を照合して確認しました。
    • MiniMaxが訓練しているモデルをリリースする前にこのキャンペーンを検出しており、データ生成からモデル公開に至る蒸留攻撃のライフサイクルを前例なく可視化できました。
    • 当社が新モデルをリリースした際、MiniMaxは24時間以内にピボットし、トラフィックのほぼ半分を最新システムから能力を取り込む方向に再配分しました。

フロンティアモデルへのアクセス手法

  • 国家安全保障上の理由から、Anthropicは現在、中国国内での商用アクセスや、中国外に所在する中国企業の子会社への商用アクセスを提供していません。これを回避するため、研究所はClaudeなどフロンティアモデルへのアクセスを大規模に再販する商業プロキシサービスを利用しています。
  • これらのサービスは我々が「hydra cluster」と呼ぶアーキテクチャを運用しています:スパローリングな不正アカウントのネットワークがAPIおよびサードパーティのクラウドプラットフォームにトラフィックを分散します。ネットワークの幅広さにより単一障害点が存在せず、1つのアカウントが停止されても別のアカウントが置き換わります。
  • あるプロキシネットワークでは同時に20,000以上の不正アカウントを管理し、蒸留トラフィックを無関係な顧客リクエストと混合して検出を難しくしていました。
  • アクセス確保後、研究所はモデルから特定能力を抽出するために注意深く作成された大量のプロンプトを生成します。目的は高品質な応答を直接訓練データとして収集すること、あるいは強化学習を回すために必要な何万ものユニークなタスクを生成することです。

蒸留攻撃を通常利用と分ける特徴

  • パターンが違います。単独では無害に見えるプロンプトでも、数万回・数百の同期アカウントで変種が繰り返され、同一の狭い能力を狙うとパターンが明らかになります。

You are an expert data analyst combining statistical rigor with deep domain knowledge. Your goal is to deliver data-driven insights — not summaries or visualizations — grounded in real data and supported by complete and transparent reasoning.

  • こうしたプロンプトの大量発生、集中した領域への偏り、高度に反復的な構造、そしてAIモデル訓練で最も価値のある出力に直接対応する内容が、蒸留攻撃の特徴です。

我々の対応

我々は蒸留攻撃の実行を困難にし、識別を容易にする防御に大規模に投資しています。主な対策は以下のとおりです。

  • 検出

    • APIトラフィック内の蒸留攻撃パターンを特定するための複数の分類器と行動フィンガープリンティングシステムを構築しています。
    • 推論トレース(chain-of-thought)誘発の検出や、多数アカウントにまたがる協調的活動の検出ツールも開発しています。
  • インテリジェンス共有

    • 技術的指標を他のAIラボ、クラウドプロバイダー、関連当局と共有しています。これにより蒸留の全体像をより包括的に把握できます。
  • アクセス制御

    • 学術アカウント、セキュリティ研究プログラム、スタートアップ組織など、不正アカウント作成に悪用されやすい経路に対する検証を強化しました。
  • カウンターメジャー

    • 製品、API、モデルレベルのセーフガードを開発しており、正当な顧客の体験を損なうことなく不正な蒸留に対する出力の有効性を低減することを目指しています。

しかし、単一企業でこれを解決することはできません。上述のとおり、この規模の蒸留攻撃にはAI業界、クラウドプロバイダー、政策決定者の協調した対応が必要です。我々はエビデンスを公開して、結果に利害関係を持つ全ての関係者が利用できるようにしています。