Redirects for AI Training enforces canonical content

claudejamodel: claude-haiku-4-5

AI トレーニング用リダイレクトが正規コンテンツを強制

2026-04-17 | Cam Whiteside、David Belson、André Cruz | 7 分で読める

Cloudflare の Wrangler CLI は過去 6 年間に複数のメジャーバージョンをリリースしており、各バージョンにはコマンド、設定、または開発者がプラットフォームと対話する方法に対する重大な変更が含まれています。アクティブにメンテナンスされているオープンソースプロジェクトと同様に、旧バージョンのドキュメントを利用可能な状態で保持しています。v1 ドキュメントには非推奨バナー、noindex メタタグ、および現在のドキュメントを指す正規タグが含まれています。すべての警告信号は同じことを示しています：このコンテンツは古い、他を参照してください。

AI トレーニングクローラーはこれらの信号を確実に尊重しません。developers.cloudflare.com で AI Crawl Control を使用しているため、AI Crawler カテゴリのボットが過去 30 日間に 480 万回訪問し、非推奨コンテンツを現在のコンテンツと同じレートで消費していることがわかります。警告信号は測定可能な違いをもたらしませんでした。

この影響は累積的です。AI エージェントは常にコンテンツをライブで取得するわけではなく、トレーニング済みモデルから引き出すためです。クローラーが非推奨ドキュメントを取り込むと、エージェントは古い基盤を継承します。

本日、AI トレーニング用リダイレクトをリリースして、検証済み AI トレーニングクローラーが最新コンテンツにリダイレクトされることを強制できるようにします。既存の正規タグは、すべての有料 Cloudflare プランで 1 つのトグルで自動的に、検証済み AI トレーニングクローラーに対する HTTP 301 リダイレクトになります。

ステータスコードは最終的にウェブがクローラーにポリシーを伝える方法であるため、Radar の AI Insights ページには、AI クローラーが Cloudflare トラフィック全体で受け取るさまざまなタイプ（成功（2xx）、リダイレクション（3xx）、クライアントエラー（4xx）、サーバーエラー（5xx））のステータスコード分析が含まれるようになり、ウェブが今日 AI クローラーにどのように応答しているかを示します。

AI トレーニングクローラーは今日、行き止まりに直面しています

検索エンジンの場合、noindex は豊富な信号システムとして機能しますが、ページが「これについてトレーニングしないでください」と言うことができる同等のインライン指令はありません。警告バナー付きで非推奨ページをライブに保つことは、通知を読んで移動する人間には機能するかもしれませんが、AI トレーニングクローラーは全文を取り込み、バナーを単なる別の段落として扱うリスクがあり、警告が表示された後でも何千回も返されます。

ブロックは独自の問題を作成します：クローラーが代わりに何を学ぶべきかについての信号がない空白を生成します。robots.txt は限定的な保護を提供しますが、自動化されたトラフィックが増加するにつれて、クローラーごと、パスごと、コンテンツ更新ごとの指令を維持するには大量の手動メンテナンスが必要です。

クローラーが必要とするのは具体的な指示です：「現在のコンテンツはここにあります。」

<link rel="canonical"> タグは RFC 6596 で定義された HTML 要素で、検索エンジンと自動化されたシステムにページの権限あるバージョンを表す URL を伝えます。既に Web ページの 65～69% に存在し、EmDash、WordPress、Contentful などのプラットフォームによって自動的に生成されます。そのインフラストラクチャはコンテンツの現在のバージョンが何であるかを宣言し、AI トレーニング用リダイレクトがそれを強制します。

仕組み

AI トレーニング用リダイレクトは 2 つの入力で動作します：

Cloudflare の cf.verified_bot_category フィールド
HTML に既に存在する <link rel="canonical"> タグ

AI Crawler カテゴリは、GPTBot、ClaudeBot、Bytespider を含む AI モデルトレーニング用にクロールするボットをカバーし、AI エージェントをカバーする AI Assistant および AI Search カテゴリとは異なります。

検証済み AI Crawler からリクエストが到着すると、Cloudflare は応答 HTML を読み取ります。自己参照でない正規タグが存在する場合、Cloudflare は応答を返す前に正規 URL に 301 Moved Permanently を発行します。人間のトラフィック、検索インデックス、およびその他の自動化されたトラフィックは影響を受けません。

非推奨パスへの GPTBot リクエストの交換は次のようになります：

GET /durable-objects/api/legacy-kv-storage-api/ Host: developers.cloudflare.com
User-Agent: Mozilla/5.0 (compatible; GPTBot/1.1; +https://openai.com/gptbot)

HTTP/1.1 301 Moved Permanently
Location: https://developers.cloudflare.com/durable-objects/api/sqlite-storage-api/

これが行わないこと

既に取り込まれたトレーニングデータを遡及的に修正したり、AI Crawler ボットカテゴリ外の未検証クローラーをカバーしたりしません。非推奨ページにアクセスする人間と AI エージェントはリダイレクトされません。また、異なるドメイン上の優先 URL を指すタグ（ドメイン統合に使用されることが多い）であるクロスオリジン正規タグは設計上除外します。ループを回避するため、自己参照正規タグ（ページ自体の URL を指すページ上のタグ）もリダイレクトをトリガーしません。

リダイレクトルールを使用しないのはなぜですか？

単一のリダイレクトルールは User-Agent 文字列で AI クローラーをターゲットにでき、サイトに既知の非推奨パスが少数ある場合、それは機能します。しかし、スケーリングしません：新しい非推奨パスごとにルールの変更が必要で、User-Agent は手動で追跡する必要があり、キャンペーン URL またはドメイン移行に使用される可能性のあるプラン制限に寄与します。

リダイレクトルールはまた、正規タグが既に宣言しているものを手動で再エンコードし、コンテンツが変更されると同期しなくなります。

当社独自のドキュメントサイトで見つけたもの

当社独自の経験は、この問題が実在することを示しています。すべての Cloudflare 顧客が利用できるのと同じダッシュボードを使用して developers.cloudflare.com で AI Crawl Control を実行しています。2026 年 3 月、レガシー Workers ドキュメントは OpenAI によって約 46,000 回、Anthropic によって 3,600 回、Meta によって 1,700 回クロールされました。

この非推奨ページのクロールは、2026 年 4 月に主要な AI アシスタントに「Wrangler CLI を使用して KV 値を書き込むにはどうすればよいですか？」と尋ねたときに、古い回答が返された理由かもしれません：「Wrangler CLI を使用して Cloudflare KV に書き込みます。kv:key put コマンドを使用します。」

実際には、正しい構文（2026 年 4 月現在）は wrangler kv key put です。コロン構文（kv:key put）は Wrangler 3.60.0 で非推奨になりました。当社のドキュメントにはインライン非推奨通知が含まれていますが、トレーニングパイプラインがそれをどのように解釈するかは不明です。

そこで、developers.cloudflare.com で AI トレーニング用リダイレクトを有効にし、応答を測定しました。最初の 7 日間で、自己参照でない正規タグを持つページへの AI トレーニングクローラーリクエストの 100% がリダイレクトされ、非推奨コンテンツで提供されませんでした。

クローラーを現在のコンテンツにリダイレクトすることで、最終的にレガシーツールに関する AI 生成回答が改善されることを期待しています。トレーニングパイプラインの閉じた性質とリクロール時間の可変性を考えると、これは引き続き検証する仮説です。しかし、クローラーがアクセスの時点で受け取るものは即座に改善されています。

有効にする方法

サイトに正規タグがある場合、既存のコンテンツ階層を検証済み AI トレーニングクローラーに対して強制できるようになりました。Cloudflare の検証済みボット分類はクローラー識別を自動的に処理します。

ダッシュボードで：

任意のドメインで、AI Crawl Control > Quick Actions > Redirects for AI training > トグルオン

Configuration Rules および Cloudflare for SaaS 経由のパス固有の制御については、完全なドキュメントを参照してください。

ウェブが AI クローラーにどのように応答するか

AI トレーニング用リダイレクトは 1 つのステータスコード、301 Moved Permanently を、コンテンツポリシーの強制メカニズムに変えます。しかし、301 は、オリジンとクローラー間のより広い会話における 1 つの信号です。

200 OK はコンテンツが提供されたことを意味します
403 Forbidden はアクセスがブロックされたことを意味します
402 Payment Required はクライアントがアクセスに対して支払う必要があることを伝えます

まとめると、AI クローラートラフィック全体のステータスコード分布は、ウェブが実際にスケールでクローラーにどのように応答しているかを明らかにします。

Radar の AI Insights ページには、AI クローラートラフィックの上位応答ステータスコードまたは応答ステータスコードグループ（ドロップダウン経由で選択可能）の分布を示す応答ステータスコード分析グラフが含まれるようになりました。データは業界セットでフィルタリングできます。クロール目的フィルターは Data Explorer でも適用できます。

フィルタリングされた分析は、特定のタイプのクローラーが異なる動作をするか、またはリクエストパターンと分布が業界によって異なるかについての視点を提供します。

下に示す一般的な例では、グラフでカバーされた期間について、リクエストの 70% 強が正常に処理され（200）、リクエストの 10.1% が別の URL にリダイレクト（301、302）され、リクエストの 3.7% が見つからないファイル（404）であることがわかります。コンテンツへのアクセスはリクエストの 8.3% でブロックされ、403 応答ステータスコードを受け取りました。

グループ化すると、リクエストの約 74% が成功応答（2xx）を受け取り、13.7% がクライアントエラー応答（4xx）を受け取り、11.3% がリダイレクションメッセージ（3xx）を受け取り、1.2% がサーバーエラー応答（5xx）を受け取ったことがわかります。

この分析は個別のボットページにも追加され、クローラーの動作のこの側面についての洞察を提供します。

下に示す GPTBot の例では、グラフでカバーされた期間について、リクエストの 80% 強が正常に処理され（200）、リクエストの 4.7% が別の URL にリダイレクト（301、302）され、リクエストの 2.7% が見つからないファイル（404）であることがわかります。ほぼ 6% がブロックされ、Cloudflare が 403 応答ステータスコードを返しました。

グループ化すると、リクエストの 83% が成功応答（2xx）を受け取り、ほぼ 10% がクライアントエラー応答（4xx）を受け取り、5.1% がリダイレクションメッセージ（3xx）を受け取り、残りの 2.2% がサーバーエラー応答（5xx）を受け取ったことがわかります。

上記のように、Radar の Data Explorer により、ユーザーは追加のフィルターを適用することでデータをさらに詳しく調べることができます。たとえば、最も存在しないコンテンツをリクエストしているクローラー（404 応答ステータスコードが発生）と、そのリクエストトラフィックが時間とともにどのようにトレンドするか、または Training クローラーに最もリダイレクション（3xx）応答ステータスコードを送信している業界と、その活動が時間とともにどのようにトレンドするかを確認できます。

応答ステータスコードデータは、集計およびボットごとベースで、Cloudflare Radar API を通じても利用可能です。

まとめ

AI トレーニング用リダイレクトを使用すると、クローラーがオリジンから受け取るものを形成できます。Radar のステータスコード分析により、ウェブの残りの部分が同じことをしているのを確認できます。

AI Crawl Control > Overview > Quick Actions で AI トレーニング用リダイレクトを有効にして、今日からサイトで警告信号を強制された結果に置き換えます。

質問がある、または見ていることを共有したいですか？ Cloudflare Community でディスカッションに参加するか、Discord で見つけてください。

Cloudflare について

Cloudflare の接続クラウドは企業ネットワーク全体を保護し、顧客がインターネット規模のアプリケーションを効率的に構築するのを支援し、任意の Web サイトまたはインターネットアプリケーションを高速化し、DDoS 攻撃を防ぎ、ハッカーを遠ざけ、Zero Trust への道のりを支援できます。任意のデバイスから 1.1.1.1 にアクセスして、インターネットをより高速で安全にする無料アプリを開始してください。

より良いインターネットを構築するという当社のミッションについて詳しく知るには、ここから始めてください。新しいキャリアの方向を探している場合は、当社の求人情報を確認してください。

Summary