AI Search:ウェブサイトソースのCSSコンテンツセレクタ対応
Key Points
- CSSセレクタ対応
- URLグロブ連携
- 最大10エントリ
Summary
AI SearchがウェブサイトソースでCSSベースのコンテンツセレクタをサポートしました。URLグロブパターンとCSSセレクタを組み合わせることで、ナビゲーションやサイドバーなどのボイラープレートを除外し、対象ページの関連部分のみを抽出してMarkdownに変換しインデックス化できます。設定はダッシュボードまたはAPIで行えます。
Key Points
-
URLグロブ(例:
**/blog/**)に紐づけたCSSセレクタで抽出対象を限定 -
ページURLがグロブに一致した場合、対応するセレクタにマッチした要素のみを抽出してMarkdown化
-
セレクタは上から順に評価され、最初にマッチしたパターンが優先される
-
インスタンスごとに最大10件のコンテンツセレクタを登録可能
-
ダッシュボードまたはAPIで設定可能。API例(インデントされたコードブロックとして記載):
curl "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai-search/instances" -H "Authorization: Bearer {api_token}" -H "Content-Type: application/json" -d '{ "id": "my-ai-search", "source": "https://example.com", "type": "web-crawler", "source_params": { "web_crawler": { "parse_options": { "content_selector": [ { "path": "/blog/", "selector": "article .post-body" } ] } } } }'
-
実運用ではセレクタの順序とグロブの範囲を慎重に設計して、期待するコンテンツのみを確実に抽出することを推奨