OpenAICloudflare Developer Platform2026/04/08 0:00

AI Search - Website Source CSS content selectors for precise content extraction in AI Search

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

AI Search:ウェブサイトソースのCSSコンテンツセレクタ対応

Key Points

  • CSSセレクタ対応
  • URLグロブ連携
  • 最大10エントリ

Summary

AI SearchがウェブサイトソースでCSSベースのコンテンツセレクタをサポートしました。URLグロブパターンとCSSセレクタを組み合わせることで、ナビゲーションやサイドバーなどのボイラープレートを除外し、対象ページの関連部分のみを抽出してMarkdownに変換しインデックス化できます。設定はダッシュボードまたはAPIで行えます。

Key Points

  • URLグロブ(例: **/blog/**)に紐づけたCSSセレクタで抽出対象を限定

  • ページURLがグロブに一致した場合、対応するセレクタにマッチした要素のみを抽出してMarkdown化

  • セレクタは上から順に評価され、最初にマッチしたパターンが優先される

  • インスタンスごとに最大10件のコンテンツセレクタを登録可能

  • ダッシュボードまたはAPIで設定可能。API例(インデントされたコードブロックとして記載):

    curl "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai-search/instances" -H "Authorization: Bearer {api_token}" -H "Content-Type: application/json" -d '{ "id": "my-ai-search", "source": "https://example.com", "type": "web-crawler", "source_params": { "web_crawler": { "parse_options": { "content_selector": [ { "path": "/blog/", "selector": "article .post-body" } ] } } } }'

  • 実運用ではセレクタの順序とグロブの範囲を慎重に設計して、期待するコンテンツのみを確実に抽出することを推奨

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

AI Search - ウェブサイトソース CSS コンテンツセレクターによる精密なコンテンツ抽出

概要

AI Search はウェブサイトデータソースに対して CSS コンテンツセレクターをサポートするようになりました。クローリングしたページのどの部分を抽出してインデックス化するかを、URL の glob パターンに対応する CSS セレクターで指定できます。コンテンツセレクターを使うと、ナビゲーション、サイドバー、フッターなどのボイラープレートを無視して、関連するコンテンツだけをインデックス化できます。

ページの URL が glob パターンに一致した場合、そのパターンに対応する CSS セレクターに一致する要素のみが抽出され、インデックス用に Markdown に変換されます。

主なポイント

  • CSS コンテンツセレクターで、ページ内の抽出範囲を細かく指定可能
  • URL の glob パターンと CSS セレクターを組み合わせて指定
  • 抽出された要素は Markdown に変換されてインデックス化される
  • セレクターは順番に評価され、最初に一致したものが適用される
  • インスタンスあたり最大 10 件のコンテンツセレクターを定義可能

設定方法

ダッシュボードまたは API から設定できます。API の例:

curl "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai-search/instances" \ 
 -H "Authorization: Bearer {api_token}" \ 
 -H "Content-Type: application/json" \ 
 -d '{ "id": "my-ai-search", "source": "https://example.com", "type": "web-crawler", "source_params": { "web_crawler": { "parse_options": { "content_selector": [ { "path": "**/blog/**", "selector": "article .post-body" } ] } } } }'

注意事項

  • セレクターは定義順に評価され、最初に一致したパターンが適用されます。
  • インスタンスあたり最大 10 エントリまで指定できます。
  • 抽出された要素は Markdown に変換されてインデックス化されます。
  • 詳細および例は content selectors documentation を参照してください。