ClaudeCloudflare Developer PlatformApr 8, 2026, 12:00 AM

AI Search - New Workers AI models for text generation and embedding in AI Search

A condensed section focused on the key takeaways first.

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-sonnet-4-20250514

AI Search adds four new Workers AI models for text generation and embedding

ai-search workers-ai text-generation embedding glm-4 qwen3 cloudflare machine-learning

Key Points

Four new Workers AI models added to AI Search
GLM-4.7-Flash supports 131K token context window
No additional provider keys required

Summary

Cloudflare AI Search now supports four additional Workers AI models, expanding text generation and embedding capabilities with improved performance characteristics.

Key Points

Text Generation Models

GLM-4.7-Flash: Lightweight model with 131,072 token context window for long-document tasks
Qwen3-30B-A3B: Mixture-of-experts model activating only 3B parameters per pass for fast inference

Embedding Models

Qwen3-Embedding-0.6B: 1,024 vector dimensions, supports up to 4,096 input tokens for longer text chunks
EmbeddingGemma-300M: 768-dimension vectors optimized for low-latency embedding workloads

Integration

All models run on Workers AI without requiring additional provider keys
Available through dashboard and API when creating or updating AI Search instances

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-sonnet-4-20250514

AI Search - AI Searchにおけるテキスト生成と埋め込み用の新しいWorkers AIモデル

AI Searchにおけるテキスト生成と埋め込み用の新しいWorkers AIモデル

2026年4月8日

AI SearchがWorkers AIの4つの追加モデルをサポートし、テキスト生成と埋め込み機能を拡張しました。

テキスト生成

モデル	コンテキストウィンドウ（トークン）
@cf/zai-org/glm-4.7-flash	131,072
@cf/qwen/qwen3-30b-a3b-fp8	32,000

GLM-4.7-Flashは、Zhipu AIの軽量モデルで、131,072トークンのコンテキストウィンドウを持ち、長文書の要約と検索タスクに適しています。
Qwen3-30B-A3Bは、Alibabaのmixture-of-expertsモデルで、フォワードパスごとに30億パラメータのみを活性化し、高い応答品質を維持しながら推論を高速に保ちます。

埋め込み

モデル	ベクトル次元	入力トークン	メトリック
@cf/qwen/qwen3-embedding-0.6b	1,024	4,096	cosine
@cf/google/embeddinggemma-300m	768	512	cosine

Qwen3-Embedding-0.6Bは最大4,096入力トークンをサポートし、より長いテキストチャンクのインデックス化に適しています。
EmbeddingGemma-300MはGoogleのモデルで、768次元ベクトルを生成し、低レイテンシの埋め込みワークロードに最適化されています。

利用方法

4つのモデルはすべてWorkers AI上で動作するため、追加のプロバイダーキーは不要です。ダッシュボードまたはAPI経由でAI Searchインスタンスを作成または更新する際に選択できます。

サポートされているモデルの完全なリストについては、Supported modelsを参照してください。

リソース

API