OpenAICloudflareApr 17, 2026, 1:00 PM

Redirects for AI Training enforces canonical content

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Redirects for AI Training enforces canonical content

Key Points

  • Verified AI crawlers receive 301 redirects to canonical URLs
  • Toggle on in AI Crawl Control to enforce canonical content
  • Radar adds per-bot response status code analysis

Summary

Cloudflare's new Redirects for AI Training redirects verified AI training crawlers to a page's canonical URL (via HTTP 301) when a non-self-referencing <link rel="canonical"> is present. This enforces authoritative content for model training crawlers without affecting human users, search indexing, or other automated traffic.

Key Points

  • How it works
    • Cloudflare checks cf.verified_bot_category on requests identified as AI training crawlers (e.g., GPTBot, ClaudeBot).
    • If the HTML contains a canonical tag pointing to a different URL on the same origin, Cloudflare returns a 301 Moved Permanently to that canonical URL instead of serving the original page.
  • Enablement
    • Toggle: AI Crawl Control > Quick Actions > Redirects for AI training > toggle on (available on paid plans).
    • Path-specific control available via Configuration Rules and Cloudflare for SaaS.
  • Practical effects for engineers
    • Uses existing canonical tags—no need to add separate redirect rules per deprecated path.
    • Human visitors, search engine indexing, and non-verified crawlers are unaffected.
  • Limitations & exclusions
    • Does not retroactively remove already-ingested training data or affect unverified crawlers.
    • Cross-origin canonical tags and self-referencing canonicals do not trigger redirects (avoids domain consolidation and redirect loops).
    • Redirect rules by user-agent still possible but do not scale as well as this canonical-driven approach.
  • Observability
    • Cloudflare Radar’s AI Insights now includes Response status code analysis for AI crawlers (2xx/3xx/4xx/5xx breakdown) and per-bot views to measure how crawlers are being served.

Actionable recommendations

  • Ensure your site emits correct, up-to-date <link rel="canonical"> tags for content you want used as authoritative.
  • Enable Redirects for AI Training in the dashboard if you want verified training crawlers redirected to canonical content.
  • Use Radar status code analysis to monitor how AI crawlers are interacting with your site and to spot gaps (404s, 403s, unexpected 2xxs) that affect training inputs.

Why it matters

Redirecting verified AI training crawlers to canonical pages reduces the chance outdated documentation is ingested by training pipelines, improving the signals AI models receive from your site without changing the experience for users or search engines.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

Redirects for AI Training がカノニカルなコンテンツを強制します

Redirects for AI Training がカノニカルなコンテンツを強制します

2026-04-17 — Cam Whiteside、David Belson、André Cruz — 読了時間: 約7分

Cloudflare の Wrangler CLI は過去6年間で複数のメジャーバージョンが公開され、それぞれコマンド、設定、あるいは開発者のプラットフォームとのやり取りに関して重要な変更を含んでいます。積極的にメンテナンスされているオープンソースプロジェクトと同様に、古いバージョンのドキュメントは引き続き公開しています。v1 ドキュメントには廃止予定バナー(deprecation banner)、noindex メタタグ、および最新ドキュメントを指すカノニカルタグが付いており、あらゆる注意喚起は同じことを伝えています: このコンテンツは古いので、別の場所を参照してください。

しかし、AI トレーニング用クローラーはこれらの指示を確実に尊重するとは限りません。developers.cloudflare.com では AI Crawl Control を使っており、過去30日間で AI Crawler Category に分類されるボットが 480 万回訪問していることが分かっています。これらのボットは、最新コンテンツと同じ比率で廃止済みコンテンツを取り込みました。注意喚起はほとんど効果を示しませんでした。

この影響は累積的です。AI エージェントは常にライブでコンテンツを取得するわけではなく、トレーニング済みモデルに基づいて応答するためです。クローラーが廃止済みドキュメントを取り込むと、エージェントは古い基盤を受け継いでしまいます。

本日、私たちは「Redirects for AI Training」を立ち上げ、検証済みの AI トレーニングクローラーを最新コンテンツへリダイレクトできるようにします。既存のカノニカルタグは、払い出しスイッチ一つで検証済みの AI トレーニングクローラーに対して HTTP 301 リダイレクトとして機能します(全ての有料 Cloudflare プランで自動的に)。ステータスコードは最終的にウェブがクローラーにポリシーを伝える方法であるため、Radar の AI Insights ページには、Cloudflare トラフィック全体における AI クローラーが受け取るステータスコードの種類(成功 (2xx)、リダイレクト (3xx)、クライアントエラー (4xx)、サーバーエラー (5xx))を示す Response status code analysis を追加しました。これにより、AI クローラーに対して今日ウェブがどのように応答しているかの視点を提供します。

AI トレーニングクローラーは現状で行き止まりに直面している

検索エンジンにとっては noindex は豊富なシグナルシステムとして機能しますが、ページ内に「これでトレーニングしないでください」という同等のインライン指示子は存在しません。廃止されたページを警告バナー付きで公開しておくことは、人間には有効です。人間は注意書きを読み、別のページに移動します。一方で AI トレーニングクローラーは本文を丸ごと取り込み、バナーを単なる段落の1つとして扱ってしまうことがあり、警告があっても何度も同じページを取り続けることがあります。

ブロック(アクセス遮断)には別の問題があります: クローラーに対して代替学習先が何かを示す信号が欠け、空白(void)が生じます。robots.txt は限定的な保護を提供しますが、自動化トラフィックが増える中で、クローラーごと・パスごと・コンテンツ更新ごとに指示を管理するのは大変な手作業になります。

クローラーに必要なのは明確な指示です: 「最新のコンテンツはここにあります」。

<link rel="canonical"> タグは RFC 6596 で定義された HTML 要素で、検索エンジンや自動化システムに対してそのページの正規 URL がどれかを伝えます。EmDash、WordPress、Contentful のようなプラットフォームが自動生成しており、現在のコンテンツがどれであるかを宣言するために既に 65–69% のウェブページで用いられています。Redirects for AI Training はそのインフラを強制します。

仕組み

Redirects for AI Training は次の2つの入力に基づいて動作します: Cloudflare の cf.verified_bot_category フィールドと HTML に既に存在する <link rel="canonical"> タグです。AI Crawler カテゴリは GPTBot、ClaudeBot、Bytespider を含むモデル学習用にクロールするボットをカバーし、AI Assistant や AI Search といった AI エージェント向けのカテゴリとは区別されています。

検証済みの AI Crawler からリクエストが届くと、Cloudflare はレスポンス HTML を読み取り、自己参照でないカノニカルタグがある場合、レスポンスを返す前にそのカノニカル URL に対して 301 Moved Permanently を発行します。人間のトラフィック、検索インデクシング、その他の自動化トラフィックには影響しません。

GPTBot からのリクエストが廃止済みパスに来たときのやり取りは次の通りです:

GET /durable-objects/api/legacy-kv-storage-api/ Host: developers.cloudflare.com User-Agent: Mozilla/5.0 (compatible; GPTBot/1.1; +https://openai.com/gptbot) HTTP/1.1 301 Moved Permanently Location: https://developers.cloudflare.com/durable-objects/api/sqlite-storage-api/

これが行わないこと

  • 既に取り込まれたトレーニングデータを遡って訂正することはできません。
  • AI Crawler ボットカテゴリ外の未検証クローラーは対象外です。
  • 人間や AI エージェントが廃止ページを訪れた場合はリダイレクトされません。
  • クロスオリジンのカノニカル(別ドメインを指すタグ)は意図的に除外しています。これらはコンテンツの最新性よりドメイン統合のために使われることが多いためです。
  • ループ回避のため、自己参照カノニカル(ページ自身の URL を指すタグ)もリダイレクトをトリガーしません。

なぜ単なる Redirect Rules では不十分なのか

Single Redirect Rules はユーザーエージェント文字列で AI クローラーをターゲットにできますし、対象が少数の廃止パスだけなら機能します。しかしスケールしません: 廃止パスが増えるごとにルールを更新する必要があり、ユーザーエージェントを手動で追跡しなければならず、またキャンペーン用 URL やドメイン移行などに使うべきプラン上の割り当てを消費してしまいます。リダイレクトルールはカノニカルタグが既に宣言していることを手動で再エンコードすることになり、コンテンツが変わると同期が外れます。

自社ドキュメントサイトでの発見

私たち自身の経験がこの問題の実在を示しています。developers.cloudflare.com 上で AI Crawl Control を運用したところ、2026年3月に OpenAI による legacy Workers のクロールが約46,000回、Anthropic が約3,600回、Meta が約1,700回行われていました。廃止されたページがクロールされていたことは、ある一流の AI アシスタントに 2026年4月に「Wrangler CLI で KV の値を書くにはどうするか」と尋ねたときに古い回答が返ってきた理由かもしれません。返答は「kv:key put コマンドを使う」とされていましたが、実際の正しい構文(2026年4月時点)は wrangler kv key put です。コロン構文 (kv:key put) は Wrangler 3.60.0 で廃止されています。

私たちのドキュメントにはインラインの廃止通知がありますが、トレーニングパイプラインがそれをどう解釈するかは不明瞭です。そこで developers.cloudflare.com に対して Redirects for AI Training を有効にし、レスポンスを計測しました。最初の7日間で、自己参照でないカノニカルタグを持つページへの AI トレーニングクローラーのリクエストは 100% リダイレクトされ、廃止コンテンツが提供されることはありませんでした。

リダイレクトされたクローラーが現在のコンテンツに移ることで、レガシーツールに関する AI 生成の回答は最終的に改善することが期待されます。トレーニングパイプラインがクローリングのタイミングや再クロール頻度により閉じた性質を持つため、この点は継続して検証する仮説です。しかし、アクセスポイントでクローラーが受け取る内容は即時に改善されました。

有効化方法

サイトにカノニカルタグがあれば、既存のコンテンツ階層を検証済みの AI トレーニングクローラー向けに強制できます。Cloudflare の検証済みボット分類はクローラーの識別を自動化します。ダッシュボードでの手順:

  • 任意のドメインで、AI Crawl Control > Quick Actions > Redirects for AI training > toggle on。

パス単位で制御したい場合は Configuration Rules や Cloudflare for SaaS を利用してください。詳細はフルドキュメントを参照してください。

AI クローラーに対するウェブの応答

Redirects for AI Training は 301 Moved Permanently というステータスコードをコンテンツポリシーの施行機構に変えます。しかし 301 は起点とクローラー間のより広い会話における一つのシグナルに過ぎません。

  • 200 OK はコンテンツが提供されたことを意味します。
  • 403 Forbidden はアクセスがブロックされたことを意味します。
  • 402 Payment Required はクライアントがアクセスに対して支払いを要求されていることを示します。

これらを合わせて、AI クローラー向けトラフィックに対するステータスコードの分布は、スケールで見るとウェブがクローラーにどう応答しているかを示します。

Radar の AI Insights ページには、AI クローラー トラフィックに対する主要なレスポンスステータスコードやコード群(ドロップダウンで選択可能)の分布を示す Response status code analysis グラフを追加しました。データは業界セットでフィルタリング可能で、Data Explorer では crawl purpose フィルターも適用できます。フィルタ付き解析により、ある種のクローラーが別の挙動を示すか、あるいは業界ごとにリクエストパターンや分布が異なるかを検討できます。

一般例では、グラフの期間で約70%超のリクエストが成功(200)で処理され、10.1% が他の URL へリダイレクト(301, 302)、3.7% が存在しないファイル(404)でした。アクセスがブロックされたリクエストは 8.3% で 403 でした。まとめると、約74% が成功応答(2xx)、13.7% がクライアントエラー(4xx)、11.3% がリダイレクト(3xx)、1.2% がサーバーエラー(5xx)を受け取っています。

個別のボットページでもこの解析が利用可能です。GPTBot の例では、対象期間で 80%超 が成功(200)、4.7% がリダイレクト(301, 302)、2.7% が存在しないファイル(404)でした。約6% がブロックされ 403 を受け取り、まとめると 83% が成功応答(2xx)、約10% がクライアントエラー(4xx)、5.1% がリダイレクト(3xx)、残り 2.2% がサーバーエラー(5xx)です。

Radar の Data Explorer を使えば、どのクローラーが最も多く存在しないコンテンツ(404)を要求しているか、あるいはどの業界がトレーニングクローラーに対して最も多くのリダイレクト(3xx)を返しているか、さらにその傾向が時間とともにどう変化しているかを詳しく調べられます。集計データやボット単位のレスポンスステータスコードデータは、Cloudflare Radar API でも利用できます。

Redirects for AI Training により、オリジンからクローラーに提供される内容を形作ることができます。Radar のステータスコード解析は、他のウェブサイトが同様にどう対応しているかを可視化します。

まずは AI Crawl Control > Overview > Quick Actions で Redirects for AI Training を有効化して、サイト上の注意喚起を実効的な運用成果に置き換え始めましょう。

質問がある、もしくは観察していることを共有したい場合は、Cloudflare Community のディスカッションに参加するか、Discord で見つけてください。

  • Watch on Cloudflare TV

Cloudflare の接続クラウドは、企業ネットワーク全体を保護し、顧客がインターネットスケールのアプリケーションを効率的に構築するのを助け、あらゆるウェブサイトやインターネットアプリを高速化し、DDoS 攻撃を阻止し、ハッカーを寄せ付けず、Zero Trust への道を支援します。どのデバイスからでも 1.1.1.1 にアクセスして、インターネットをより速く安全にする無料アプリを始めてください。

私たちのミッションについて詳しく知りたい場合は start here をご覧ください。新しいキャリアに興味がある場合は open positions をご確認ください。

(タグ: server-island-start, Agents Week, Agents, AI, Radar, Bot Management, Developer Platform, Developers)