OpenAICloudflare2026/04/17 13:00

Redirects for AI Training enforces canonical content

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

AI訓練用クローラに対するcanonicalの強制リダイレクト

Key Points

  • canonicalを301へ強制
  • 検証済みAIクローラ対象
  • ダッシュボードで即時有効化

Summary

Cloudflareの「Redirects for AI Training」は、検証済みAI訓練クローラに対してページ内の<link rel="canonical">を基にHTTP 301でリダイレクトを行い、廃止済みコンテンツが訓練データに取り込まれるのを防ぎます。ヒトの利用者、検索エンジン、その他の自動化トラフィックには影響しません。既存のcanonicalをそのまま活用するため、スケールしやすく運用負荷が小さいのが利点です。Radarのステータスコード分析でAIクローラへの応答状況も可視化されます。

Key Points

  • 対象: Cloudflareのcf.verified_bot_categoryで「AI Crawler」に分類された検証済みボット(例: GPTBot, ClaudeBot)。
  • 動作: リクエスト時にHTMLの非自己参照canonicalを検出すると、検証済みAIクローラに対して301 Moved Permanentlyでcanonical先へリダイレクト。
  • 影響外: ヒト、AIエージェント、検索インデックス、未検証クローラ、クロスオリジンcanonical、自己参照canonicalは対象外。
  • 導入: 有料プランでダッシュボードから有効化(AI Crawl Control > Quick Actions > Redirects for AI training をオン)。Configuration RulesやCloudflare for SaaSでパス単位の制御も可能。
  • 制約: 既存の学習済みデータを修正するわけではなく、過去に収集された内容は残る。すべてのクローラをカバーするわけではない。
  • 観測: developers.cloudflare.comでの初週測定では、非自己参照canonicalを持つページへのAI訓練クローラ要求は100%リダイレクトされた。

Practical notes for engineers

  • サイトに正しい<link rel="canonical" href="...">があることを確認すると即座に効果を得られる。
  • cross-origin canonicalを使用している場合は期待通りリダイレクトされないため、ドメイン内でのcanonical設計を優先する。
  • 既存のリダイレクトルールを大量に管理する代わりにcanonicalを整備するほうが運用コストが低い。
  • 状態確認: RadarのResponse status code分析でAIクローラ向けの2xx/3xx/4xx/5xx分布を確認して効果をモニタリングする。

Quick example

  • GPTBotからのリクエストに対する挙動例(要約):
    • リクエスト: GET /old-path (User-Agent: GPTBot)
    • レスポンス: 301 Location: https://example.com/current-path

Action items

  • エンジニアはまずサイト内のcanonicalタグを監査し、正しい正規URLを設定する。
  • CloudflareダッシュボードでRedirects for AI Trainingを有効化し、Radarでステータスコード分布を監視する。
  • 必要に応じてConfiguration Rulesでパスごとの細かい制御を追加する。

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

Redirects for AI Training がカノニカルなコンテンツを強制します

Redirects for AI Training がカノニカルなコンテンツを強制します

2026-04-17 — Cam Whiteside、David Belson、André Cruz — 読了時間: 約7分

Cloudflare の Wrangler CLI は過去6年間で複数のメジャーバージョンが公開され、それぞれコマンド、設定、あるいは開発者のプラットフォームとのやり取りに関して重要な変更を含んでいます。積極的にメンテナンスされているオープンソースプロジェクトと同様に、古いバージョンのドキュメントは引き続き公開しています。v1 ドキュメントには廃止予定バナー(deprecation banner)、noindex メタタグ、および最新ドキュメントを指すカノニカルタグが付いており、あらゆる注意喚起は同じことを伝えています: このコンテンツは古いので、別の場所を参照してください。

しかし、AI トレーニング用クローラーはこれらの指示を確実に尊重するとは限りません。developers.cloudflare.com では AI Crawl Control を使っており、過去30日間で AI Crawler Category に分類されるボットが 480 万回訪問していることが分かっています。これらのボットは、最新コンテンツと同じ比率で廃止済みコンテンツを取り込みました。注意喚起はほとんど効果を示しませんでした。

この影響は累積的です。AI エージェントは常にライブでコンテンツを取得するわけではなく、トレーニング済みモデルに基づいて応答するためです。クローラーが廃止済みドキュメントを取り込むと、エージェントは古い基盤を受け継いでしまいます。

本日、私たちは「Redirects for AI Training」を立ち上げ、検証済みの AI トレーニングクローラーを最新コンテンツへリダイレクトできるようにします。既存のカノニカルタグは、払い出しスイッチ一つで検証済みの AI トレーニングクローラーに対して HTTP 301 リダイレクトとして機能します(全ての有料 Cloudflare プランで自動的に)。ステータスコードは最終的にウェブがクローラーにポリシーを伝える方法であるため、Radar の AI Insights ページには、Cloudflare トラフィック全体における AI クローラーが受け取るステータスコードの種類(成功 (2xx)、リダイレクト (3xx)、クライアントエラー (4xx)、サーバーエラー (5xx))を示す Response status code analysis を追加しました。これにより、AI クローラーに対して今日ウェブがどのように応答しているかの視点を提供します。

AI トレーニングクローラーは現状で行き止まりに直面している

検索エンジンにとっては noindex は豊富なシグナルシステムとして機能しますが、ページ内に「これでトレーニングしないでください」という同等のインライン指示子は存在しません。廃止されたページを警告バナー付きで公開しておくことは、人間には有効です。人間は注意書きを読み、別のページに移動します。一方で AI トレーニングクローラーは本文を丸ごと取り込み、バナーを単なる段落の1つとして扱ってしまうことがあり、警告があっても何度も同じページを取り続けることがあります。

ブロック(アクセス遮断)には別の問題があります: クローラーに対して代替学習先が何かを示す信号が欠け、空白(void)が生じます。robots.txt は限定的な保護を提供しますが、自動化トラフィックが増える中で、クローラーごと・パスごと・コンテンツ更新ごとに指示を管理するのは大変な手作業になります。

クローラーに必要なのは明確な指示です: 「最新のコンテンツはここにあります」。

<link rel="canonical"> タグは RFC 6596 で定義された HTML 要素で、検索エンジンや自動化システムに対してそのページの正規 URL がどれかを伝えます。EmDash、WordPress、Contentful のようなプラットフォームが自動生成しており、現在のコンテンツがどれであるかを宣言するために既に 65–69% のウェブページで用いられています。Redirects for AI Training はそのインフラを強制します。

仕組み

Redirects for AI Training は次の2つの入力に基づいて動作します: Cloudflare の cf.verified_bot_category フィールドと HTML に既に存在する <link rel="canonical"> タグです。AI Crawler カテゴリは GPTBot、ClaudeBot、Bytespider を含むモデル学習用にクロールするボットをカバーし、AI Assistant や AI Search といった AI エージェント向けのカテゴリとは区別されています。

検証済みの AI Crawler からリクエストが届くと、Cloudflare はレスポンス HTML を読み取り、自己参照でないカノニカルタグがある場合、レスポンスを返す前にそのカノニカル URL に対して 301 Moved Permanently を発行します。人間のトラフィック、検索インデクシング、その他の自動化トラフィックには影響しません。

GPTBot からのリクエストが廃止済みパスに来たときのやり取りは次の通りです:

GET /durable-objects/api/legacy-kv-storage-api/ Host: developers.cloudflare.com User-Agent: Mozilla/5.0 (compatible; GPTBot/1.1; +https://openai.com/gptbot) HTTP/1.1 301 Moved Permanently Location: https://developers.cloudflare.com/durable-objects/api/sqlite-storage-api/

これが行わないこと

  • 既に取り込まれたトレーニングデータを遡って訂正することはできません。
  • AI Crawler ボットカテゴリ外の未検証クローラーは対象外です。
  • 人間や AI エージェントが廃止ページを訪れた場合はリダイレクトされません。
  • クロスオリジンのカノニカル(別ドメインを指すタグ)は意図的に除外しています。これらはコンテンツの最新性よりドメイン統合のために使われることが多いためです。
  • ループ回避のため、自己参照カノニカル(ページ自身の URL を指すタグ)もリダイレクトをトリガーしません。

なぜ単なる Redirect Rules では不十分なのか

Single Redirect Rules はユーザーエージェント文字列で AI クローラーをターゲットにできますし、対象が少数の廃止パスだけなら機能します。しかしスケールしません: 廃止パスが増えるごとにルールを更新する必要があり、ユーザーエージェントを手動で追跡しなければならず、またキャンペーン用 URL やドメイン移行などに使うべきプラン上の割り当てを消費してしまいます。リダイレクトルールはカノニカルタグが既に宣言していることを手動で再エンコードすることになり、コンテンツが変わると同期が外れます。

自社ドキュメントサイトでの発見

私たち自身の経験がこの問題の実在を示しています。developers.cloudflare.com 上で AI Crawl Control を運用したところ、2026年3月に OpenAI による legacy Workers のクロールが約46,000回、Anthropic が約3,600回、Meta が約1,700回行われていました。廃止されたページがクロールされていたことは、ある一流の AI アシスタントに 2026年4月に「Wrangler CLI で KV の値を書くにはどうするか」と尋ねたときに古い回答が返ってきた理由かもしれません。返答は「kv:key put コマンドを使う」とされていましたが、実際の正しい構文(2026年4月時点)は wrangler kv key put です。コロン構文 (kv:key put) は Wrangler 3.60.0 で廃止されています。

私たちのドキュメントにはインラインの廃止通知がありますが、トレーニングパイプラインがそれをどう解釈するかは不明瞭です。そこで developers.cloudflare.com に対して Redirects for AI Training を有効にし、レスポンスを計測しました。最初の7日間で、自己参照でないカノニカルタグを持つページへの AI トレーニングクローラーのリクエストは 100% リダイレクトされ、廃止コンテンツが提供されることはありませんでした。

リダイレクトされたクローラーが現在のコンテンツに移ることで、レガシーツールに関する AI 生成の回答は最終的に改善することが期待されます。トレーニングパイプラインがクローリングのタイミングや再クロール頻度により閉じた性質を持つため、この点は継続して検証する仮説です。しかし、アクセスポイントでクローラーが受け取る内容は即時に改善されました。

有効化方法

サイトにカノニカルタグがあれば、既存のコンテンツ階層を検証済みの AI トレーニングクローラー向けに強制できます。Cloudflare の検証済みボット分類はクローラーの識別を自動化します。ダッシュボードでの手順:

  • 任意のドメインで、AI Crawl Control > Quick Actions > Redirects for AI training > toggle on。

パス単位で制御したい場合は Configuration Rules や Cloudflare for SaaS を利用してください。詳細はフルドキュメントを参照してください。

AI クローラーに対するウェブの応答

Redirects for AI Training は 301 Moved Permanently というステータスコードをコンテンツポリシーの施行機構に変えます。しかし 301 は起点とクローラー間のより広い会話における一つのシグナルに過ぎません。

  • 200 OK はコンテンツが提供されたことを意味します。
  • 403 Forbidden はアクセスがブロックされたことを意味します。
  • 402 Payment Required はクライアントがアクセスに対して支払いを要求されていることを示します。

これらを合わせて、AI クローラー向けトラフィックに対するステータスコードの分布は、スケールで見るとウェブがクローラーにどう応答しているかを示します。

Radar の AI Insights ページには、AI クローラー トラフィックに対する主要なレスポンスステータスコードやコード群(ドロップダウンで選択可能)の分布を示す Response status code analysis グラフを追加しました。データは業界セットでフィルタリング可能で、Data Explorer では crawl purpose フィルターも適用できます。フィルタ付き解析により、ある種のクローラーが別の挙動を示すか、あるいは業界ごとにリクエストパターンや分布が異なるかを検討できます。

一般例では、グラフの期間で約70%超のリクエストが成功(200)で処理され、10.1% が他の URL へリダイレクト(301, 302)、3.7% が存在しないファイル(404)でした。アクセスがブロックされたリクエストは 8.3% で 403 でした。まとめると、約74% が成功応答(2xx)、13.7% がクライアントエラー(4xx)、11.3% がリダイレクト(3xx)、1.2% がサーバーエラー(5xx)を受け取っています。

個別のボットページでもこの解析が利用可能です。GPTBot の例では、対象期間で 80%超 が成功(200)、4.7% がリダイレクト(301, 302)、2.7% が存在しないファイル(404)でした。約6% がブロックされ 403 を受け取り、まとめると 83% が成功応答(2xx)、約10% がクライアントエラー(4xx)、5.1% がリダイレクト(3xx)、残り 2.2% がサーバーエラー(5xx)です。

Radar の Data Explorer を使えば、どのクローラーが最も多く存在しないコンテンツ(404)を要求しているか、あるいはどの業界がトレーニングクローラーに対して最も多くのリダイレクト(3xx)を返しているか、さらにその傾向が時間とともにどう変化しているかを詳しく調べられます。集計データやボット単位のレスポンスステータスコードデータは、Cloudflare Radar API でも利用できます。

Redirects for AI Training により、オリジンからクローラーに提供される内容を形作ることができます。Radar のステータスコード解析は、他のウェブサイトが同様にどう対応しているかを可視化します。

まずは AI Crawl Control > Overview > Quick Actions で Redirects for AI Training を有効化して、サイト上の注意喚起を実効的な運用成果に置き換え始めましょう。

質問がある、もしくは観察していることを共有したい場合は、Cloudflare Community のディスカッションに参加するか、Discord で見つけてください。

  • Watch on Cloudflare TV

Cloudflare の接続クラウドは、企業ネットワーク全体を保護し、顧客がインターネットスケールのアプリケーションを効率的に構築するのを助け、あらゆるウェブサイトやインターネットアプリを高速化し、DDoS 攻撃を阻止し、ハッカーを寄せ付けず、Zero Trust への道を支援します。どのデバイスからでも 1.1.1.1 にアクセスして、インターネットをより速く安全にする無料アプリを始めてください。

私たちのミッションについて詳しく知りたい場合は start here をご覧ください。新しいキャリアに興味がある場合は open positions をご確認ください。

(タグ: server-island-start, Agents Week, Agents, AI, Radar, Bot Management, Developer Platform, Developers)