Summary

Cloudflare has launched a new /crawl endpoint for Browser Rendering in open beta, enabling developers to crawl entire websites with a single API call. The service automatically discovers pages, renders them in a headless browser, and returns content in multiple formats.

Key Points

Asynchronous crawling: Submit a URL, receive a job ID, and poll for results as pages are processed
Multiple output formats: Returns content as HTML, Markdown, and structured JSON (powered by Workers AI)
Flexible crawl controls: Configure depth limits, page limits, and URL pattern inclusion/exclusion
Automatic page discovery: Finds URLs through sitemaps, page links, or both
Incremental crawling: Use modifiedSince and maxAge parameters to skip unchanged or recently fetched pages
Static mode: Set render: false for faster crawling of static sites without browser rendering
Compliance-focused: Respects robots.txt and AI Crawl Control by default as a signed-agent
Availability: Works on both Workers Free and Paid plans

Limitations

Cannot bypass Cloudflare bot detection or captchas
Self-identifies as a bot during crawling

claudejamodel: claude-sonnet-4-20250514

Browser Rendering - 単一のAPI呼び出しでBrowser Renderingを使用してウェブサイト全体をクロール

Changelog

Cloudflareの新しいアップデートと改善。RSSを購読 RSSフィードを表示

← すべての投稿に戻る

Browser Renderingを使用して単一のAPI呼び出しでウェブサイト全体をクロール

2026年3月10日

Browser Rendering

編集: この投稿は、サイトガイダンスに関するクロール動作を明確にするために編集されました。

Browser Renderingの新しい/crawlエンドポイント（オープンベータで利用可能）を使用して、単一のAPI呼び出しでウェブサイト全体をクロールできるようになりました。開始URLを送信すると、ページが自動的に発見され、ヘッドレスブラウザでレンダリングされ、HTML、Markdown、構造化JSONを含む複数の形式で返されます。

このエンドポイントは、デフォルトでrobots.txtとAI Crawl Control ↗を尊重するsigned-agent ↗であり、開発者がウェブサイトのルールに準拠しやすくし、クローラーがウェブオーナーのガイダンスを無視する可能性を低くします。

これは、モデルの訓練、RAGパイプラインの構築、サイト全体のコンテンツの研究や監視に最適です。

クロールジョブは非同期で実行されます。URLを送信し、ジョブIDを受け取り、ページが処理される際に結果を確認します。

# クロールを開始
curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \
  -H 'Authorization: Bearer <apiToken>' \
  -H 'Content-Type: application/json' \
  -d '{
    "url": "https://blog.cloudflare.com/"
  }'

# 結果を確認
curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \
  -H 'Authorization: Bearer <apiToken>'

主な機能:

複数の出力形式 - クロールしたコンテンツをHTML、Markdown、構造化JSON（Workers AIを使用）として返す
クロール範囲制御 - クロール深度、ページ制限、特定のURLパスを含める/除外するワイルドカードパターンを設定
自動ページ発見 - サイトマップ、ページリンク、またはその両方からURLを発見
増分クロール - modifiedSinceとmaxAgeを使用して、変更されていないページや最近取得されたページをスキップし、繰り返しクロールの時間とコストを節約
静的モード - render: falseを設定してブラウザを起動せずに静的HTMLを取得し、静的サイトの高速クロールを実現
適切に動作するボット - crawl-delayを含むrobots.txtディレクティブを尊重

Workers FreeプランとPaidプランの両方で利用可能。

注意: /crawlエンドポイントはCloudflareのボット検出やcaptchaをバイパスできず、ボットとして自己識別します。

開始するには、crawlエンドポイントのドキュメントを参照してください。クロールされる独自のサイトを設定している場合は、robots.txtとサイトマップのベストプラクティスを確認してください。

リソース

API

Cloudflareは初めてですか？

Directory
Sponsorships
Open Source
Support
Help Center
System Status
Compliance
GDPR

Company

cloudflare.com
Our team
Careers

Tools

Cloudflare Radar
Speed Test
Is BGP Safe Yet?
RPKI Toolkit
Certificate Transparency

Community

X
Discord
YouTube
GitHub

この情報は役に立ちましたか？ はいいいえ

Browser Rendering - Crawl entire websites with a single API call using Browser Rendering

Summary

Summary

Key Points

Limitations

Translations

Changelog

Browser Renderingを使用して単一のAPI呼び出しでウェブサイト全体をクロール

主な機能:

リソース