Changelog
Cloudflareの新しいアップデートと改善。RSSを購読 RSSフィードを表示
← すべての投稿に戻る
Browser Renderingを使用して単一のAPI呼び出しでウェブサイト全体をクロール
2026年3月10日
Browser Rendering
編集: この投稿は、サイトガイダンスに関するクロール動作を明確にするために編集されました。
Browser Renderingの新しい/crawlエンドポイント(オープンベータで利用可能)を使用して、単一のAPI呼び出しでウェブサイト全体をクロールできるようになりました。開始URLを送信すると、ページが自動的に発見され、ヘッドレスブラウザでレンダリングされ、HTML、Markdown、構造化JSONを含む複数の形式で返されます。
このエンドポイントは、デフォルトでrobots.txtとAI Crawl Control ↗を尊重するsigned-agent ↗であり、開発者がウェブサイトのルールに準拠しやすくし、クローラーがウェブオーナーのガイダンスを無視する可能性を低くします。
これは、モデルの訓練、RAGパイプラインの構築、サイト全体のコンテンツの研究や監視に最適です。
クロールジョブは非同期で実行されます。URLを送信し、ジョブIDを受け取り、ページが処理される際に結果を確認します。
curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \
-H 'Authorization: Bearer <apiToken>' \
-H 'Content-Type: application/json' \
-d '{
"url": "https://blog.cloudflare.com/"
}'
curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \
-H 'Authorization: Bearer <apiToken>'
主な機能:
- 複数の出力形式 - クロールしたコンテンツをHTML、Markdown、構造化JSON(Workers AIを使用)として返す
- クロール範囲制御 - クロール深度、ページ制限、特定のURLパスを含める/除外するワイルドカードパターンを設定
- 自動ページ発見 - サイトマップ、ページリンク、またはその両方からURLを発見
- 増分クロール -
modifiedSinceとmaxAgeを使用して、変更されていないページや最近取得されたページをスキップし、繰り返しクロールの時間とコストを節約
- 静的モード -
render: falseを設定してブラウザを起動せずに静的HTMLを取得し、静的サイトの高速クロールを実現
- 適切に動作するボット -
crawl-delayを含むrobots.txtディレクティブを尊重
Workers FreeプランとPaidプランの両方で利用可能。
注意: /crawlエンドポイントはCloudflareのボット検出やcaptchaをバイパスできず、ボットとして自己識別します。
開始するには、crawlエンドポイントのドキュメントを参照してください。クロールされる独自のサイトを設定している場合は、robots.txtとサイトマップのベストプラクティスを確認してください。
リソース
API
Cloudflareは初めてですか?
- Directory
- Sponsorships
- Open Source
- Support
- Help Center
- System Status
- Compliance
- GDPR
Company
- cloudflare.com
- Our team
- Careers
Tools
- Cloudflare Radar
- Speed Test
- Is BGP Safe Yet?
- RPKI Toolkit
- Certificate Transparency
Community
© 2026 Cloudflare, Inc. Privacy Policy Terms of Use Report Security Issues Trademark Cookie Settings
この情報は役に立ちましたか? はい いいえ