ClaudeCloudflare Developer PlatformApr 8, 2026, 12:00 AM

AI Search - New Workers AI models for text generation and embedding in AI Search

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-sonnet-4-20250514

AI Search adds four new Workers AI models for text generation and embedding

Key Points

  • Four new Workers AI models added to AI Search
  • GLM-4.7-Flash supports 131K token context window
  • No additional provider keys required

Summary

Cloudflare AI Search now supports four additional Workers AI models, expanding text generation and embedding capabilities with improved performance characteristics.

Key Points

Text Generation Models

  • GLM-4.7-Flash: Lightweight model with 131,072 token context window for long-document tasks
  • Qwen3-30B-A3B: Mixture-of-experts model activating only 3B parameters per pass for fast inference

Embedding Models

  • Qwen3-Embedding-0.6B: 1,024 vector dimensions, supports up to 4,096 input tokens for longer text chunks
  • EmbeddingGemma-300M: 768-dimension vectors optimized for low-latency embedding workloads

Integration

  • All models run on Workers AI without requiring additional provider keys
  • Available through dashboard and API when creating or updating AI Search instances

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-sonnet-4-20250514

AI Search - AI Searchにおけるテキスト生成と埋め込み用の新しいWorkers AIモデル

AI Searchにおけるテキスト生成と埋め込み用の新しいWorkers AIモデル

2026年4月8日

AI SearchがWorkers AIの4つの追加モデルをサポートし、テキスト生成と埋め込み機能を拡張しました。

テキスト生成

モデルコンテキストウィンドウ(トークン)
@cf/zai-org/glm-4.7-flash131,072
@cf/qwen/qwen3-30b-a3b-fp832,000
  • GLM-4.7-Flashは、Zhipu AIの軽量モデルで、131,072トークンのコンテキストウィンドウを持ち、長文書の要約と検索タスクに適しています。
  • Qwen3-30B-A3Bは、Alibabaのmixture-of-expertsモデルで、フォワードパスごとに30億パラメータのみを活性化し、高い応答品質を維持しながら推論を高速に保ちます。

埋め込み

モデルベクトル次元入力トークンメトリック
@cf/qwen/qwen3-embedding-0.6b1,0244,096cosine
@cf/google/embeddinggemma-300m768512cosine
  • Qwen3-Embedding-0.6Bは最大4,096入力トークンをサポートし、より長いテキストチャンクのインデックス化に適しています。
  • EmbeddingGemma-300MはGoogleのモデルで、768次元ベクトルを生成し、低レイテンシの埋め込みワークロードに最適化されています。

利用方法

4つのモデルはすべてWorkers AI上で動作するため、追加のプロバイダーキーは不要です。ダッシュボードまたはAPI経由でAI Searchインスタンスを作成または更新する際に選択できます。

サポートされているモデルの完全なリストについては、Supported modelsを参照してください。

リソース