OpenAICloudflare Developer Platform2026/04/08 0:00

AI Search - Website Source CSS content selectors for precise content extraction in AI Search

要点だけを先に読めるように短く再構成したセクションです。

元記事

OpenAI Claude

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

AI Search：ウェブサイトソースのCSSコンテンツセレクタ対応

ai-search web-crawler css content-selectors api indexing

Key Points

CSSセレクタ対応
URLグロブ連携
最大10エントリ

Summary

AI SearchがウェブサイトソースでCSSベースのコンテンツセレクタをサポートしました。URLグロブパターンとCSSセレクタを組み合わせることで、ナビゲーションやサイドバーなどのボイラープレートを除外し、対象ページの関連部分のみを抽出してMarkdownに変換しインデックス化できます。設定はダッシュボードまたはAPIで行えます。

Key Points

URLグロブ（例: **/blog/**）に紐づけたCSSセレクタで抽出対象を限定
ページURLがグロブに一致した場合、対応するセレクタにマッチした要素のみを抽出してMarkdown化
セレクタは上から順に評価され、最初にマッチしたパターンが優先される
インスタンスごとに最大10件のコンテンツセレクタを登録可能
ダッシュボードまたはAPIで設定可能。API例（インデントされたコードブロックとして記載）:

curl "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai-search/instances" -H "Authorization: Bearer {api_token}" -H "Content-Type: application/json" -d '{ "id": "my-ai-search", "source": "https://example.com", "type": "web-crawler", "source_params": { "web_crawler": { "parse_options": { "content_selector": [ { "path": "/blog/", "selector": "article .post-body" } ] } } } }'
実運用ではセレクタの順序とグロブの範囲を慎重に設計して、期待するコンテンツのみを確実に抽出することを推奨

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

AI Search - ウェブサイトソース CSS コンテンツセレクターによる精密なコンテンツ抽出

概要

AI Search はウェブサイトデータソースに対して CSS コンテンツセレクターをサポートするようになりました。クローリングしたページのどの部分を抽出してインデックス化するかを、URL の glob パターンに対応する CSS セレクターで指定できます。コンテンツセレクターを使うと、ナビゲーション、サイドバー、フッターなどのボイラープレートを無視して、関連するコンテンツだけをインデックス化できます。

ページの URL が glob パターンに一致した場合、そのパターンに対応する CSS セレクターに一致する要素のみが抽出され、インデックス用に Markdown に変換されます。

主なポイント

CSS コンテンツセレクターで、ページ内の抽出範囲を細かく指定可能
URL の glob パターンと CSS セレクターを組み合わせて指定
抽出された要素は Markdown に変換されてインデックス化される
セレクターは順番に評価され、最初に一致したものが適用される
インスタンスあたり最大 10 件のコンテンツセレクターを定義可能

設定方法

ダッシュボードまたは API から設定できます。API の例：

curl "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai-search/instances" \ 
 -H "Authorization: Bearer {api_token}" \ 
 -H "Content-Type: application/json" \ 
 -d '{ "id": "my-ai-search", "source": "https://example.com", "type": "web-crawler", "source_params": { "web_crawler": { "parse_options": { "content_selector": [ { "path": "**/blog/**", "selector": "article .post-body" } ] } } } }'

注意事項

セレクターは定義順に評価され、最初に一致したパターンが適用されます。
インスタンスあたり最大 10 エントリまで指定できます。
抽出された要素は Markdown に変換されてインデックス化されます。
詳細および例は content selectors documentation を参照してください。