Summary

Cloudflare Browser Rendering に新しい /crawl エンドポイントが追加され、単一のAPI呼び出しでウェブサイト全体をクロールできるようになりました。このエンドポイントはオープンベータで利用可能で、開始URLを送信するだけで、ページが自動的に発見され、ヘッドレスブラウザでレンダリングされ、複数の形式で結果を取得できます。

Key Points

非同期処理: クロールジョブは非同期で実行され、ジョブIDを使用して結果を確認
複数の出力形式: HTML、Markdown、構造化JSON（Workers AI搭載）で結果を取得可能
クロール制御機能: クロール深度、ページ制限、URLパスの包含・除外パターンを設定可能
自動ページ発見: サイトマップ、ページリンク、またはその両方からURLを自動発見
インクリメンタルクロール: modifiedSinceとmaxAgeを使用して変更されていないページをスキップ
静的モード: render: falseでブラウザを起動せずに静的HTMLを高速取得
適切なボット動作: robots.txtとAI Crawl Controlを標準で遵守
利用可能プラン: Workers FreeとPaidプランの両方で利用可能

claudejamodel: claude-sonnet-4-20250514

Browser Rendering - 単一のAPI呼び出しでBrowser Renderingを使用してウェブサイト全体をクロール

Changelog

Cloudflareの新しいアップデートと改善。RSSを購読 RSSフィードを表示

← すべての投稿に戻る

Browser Renderingを使用して単一のAPI呼び出しでウェブサイト全体をクロール

2026年3月10日

Browser Rendering

編集: この投稿は、サイトガイダンスに関するクロール動作を明確にするために編集されました。

Browser Renderingの新しい/crawlエンドポイント（オープンベータで利用可能）を使用して、単一のAPI呼び出しでウェブサイト全体をクロールできるようになりました。開始URLを送信すると、ページが自動的に発見され、ヘッドレスブラウザでレンダリングされ、HTML、Markdown、構造化JSONを含む複数の形式で返されます。

このエンドポイントは、デフォルトでrobots.txtとAI Crawl Control ↗を尊重するsigned-agent ↗であり、開発者がウェブサイトのルールに準拠しやすくし、クローラーがウェブオーナーのガイダンスを無視する可能性を低くします。

これは、モデルの訓練、RAGパイプラインの構築、サイト全体のコンテンツの研究や監視に最適です。

クロールジョブは非同期で実行されます。URLを送信し、ジョブIDを受け取り、ページが処理される際に結果を確認します。

# クロールを開始
curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \
  -H 'Authorization: Bearer <apiToken>' \
  -H 'Content-Type: application/json' \
  -d '{
    "url": "https://blog.cloudflare.com/"
  }'

# 結果を確認
curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \
  -H 'Authorization: Bearer <apiToken>'

主な機能:

複数の出力形式 - クロールしたコンテンツをHTML、Markdown、構造化JSON（Workers AIを使用）として返す
クロール範囲制御 - クロール深度、ページ制限、特定のURLパスを含める/除外するワイルドカードパターンを設定
自動ページ発見 - サイトマップ、ページリンク、またはその両方からURLを発見
増分クロール - modifiedSinceとmaxAgeを使用して、変更されていないページや最近取得されたページをスキップし、繰り返しクロールの時間とコストを節約
静的モード - render: falseを設定してブラウザを起動せずに静的HTMLを取得し、静的サイトの高速クロールを実現
適切に動作するボット - crawl-delayを含むrobots.txtディレクティブを尊重

Workers FreeプランとPaidプランの両方で利用可能。

注意: /crawlエンドポイントはCloudflareのボット検出やcaptchaをバイパスできず、ボットとして自己識別します。

開始するには、crawlエンドポイントのドキュメントを参照してください。クロールされる独自のサイトを設定している場合は、robots.txtとサイトマップのベストプラクティスを確認してください。

リソース

API

Cloudflareは初めてですか？

Directory
Sponsorships
Open Source
Support
Help Center
System Status
Compliance
GDPR

Company

cloudflare.com
Our team
Careers

Tools

Cloudflare Radar
Speed Test
Is BGP Safe Yet?
RPKI Toolkit
Certificate Transparency

Community

X
Discord
YouTube
GitHub

この情報は役に立ちましたか？ はいいいえ

Browser Rendering - Crawl entire websites with a single API call using Browser Rendering