OpenAICloudflare Developer PlatformApr 8, 2026, 12:00 AM

AI Search - New Workers AI models for text generation and embedding in AI Search

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

AI Search - New Workers AI models for text generation and embedding

Key Points

  • Four new Workers AI models added
  • GLM-4.7-Flash supports 131,072-token context
  • Embeddings: qwen 4,096-token input; embeddinggemma low-latency

Summary

Cloudflare AI Search now includes four additional Workers AI models for text generation and embeddings. These models run on Workers AI (no external provider keys required) and are available when creating or updating an AI Search instance via the dashboard or the API. The additions target long-context generation and higher-capacity embeddings for indexing longer chunks or low-latency embedding workloads.

Key Points

  • New text-generation models:
    • @cf/zai-org/glm-4.7-flash — GLM-4.7-Flash with a 131,072-token context window; ideal for long-document summarization and retrieval tasks.
    • @cf/qwen/qwen3-30b-a3b-fp8 — Qwen3-30B-A3B MOE model that activates ~3B parameters per forward pass for faster inference while keeping strong response quality; 32,000-token context.
  • New embedding models:
    • @cf/qwen/qwen3-embedding-0.6b — 1,024-d vectors, supports up to 4,096 input tokens; suited for indexing longer text chunks; cosine similarity recommended.
    • @cf/google/embeddinggemma-300m — 768-d vectors optimized for low-latency embedding workloads; cosine similarity recommended.
  • Operational notes for engineers:
    • No additional provider keys required — models run on Workers AI.
    • Select these models in the AI Search dashboard or specify them via the API when creating/updating an AI Search instance.
    • Use high-context models for long-document summarization/retrieval; choose embedding size and token support based on indexing chunk size and latency requirements.

Actionable recommendations

  • For long documents or RAG flows, prefer @cf/zai-org/glm-4.7-flash (131k tokens) or @cf/qwen/qwen3-30b-a3b-fp8 (32k tokens) depending on latency/quality tradeoffs.
  • For embedding large text chunks, use @cf/qwen/qwen3-embedding-0.6b (4k input tokens, 1024-d) to reduce chunking; use @cf/google/embeddinggemma-300m for lower-latency, smaller vectors.
  • Test cosine similarity for nearest-neighbor search and tune chunk sizes against model token limits.

Reference

Published: 2026-04-08 Models available in Workers AI: @cf/zai-org/glm-4.7-flash, @cf/qwen/qwen3-30b-a3b-fp8, @cf/qwen/qwen3-embedding-0.6b, @cf/google/embeddinggemma-300m

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

AI Search — AI Search におけるテキスト生成および埋め込み向けの新しい Workers AI モデル

AI Search — 新しい Workers AI モデル(テキスト生成と埋め込み)

公開日: 2026-04-08

AI Search は、テキスト生成と埋め込みの両分野で新たに4つの Workers AI モデルをサポートします。以下のモデルが追加されました。

テキスト生成

ModelContext window (tokens)
@cf/zai-org/glm-4.7-flash131,072
@cf/qwen/qwen3-30b-a3b-fp832,000
  • GLM-4.7-Flash は Zhipu AI による軽量モデルで、131,072 トークンのコンテキストウィンドウを持ち、長文の要約やリトリーバル用途に適しています。
  • Qwen3-30B-A3B は Alibaba の Mixture-of-Experts モデルで、順伝播ごとにわずか 30 億(3,000,000,000)パラメータのみをアクティベートするため、推論が高速でありつつ高い応答品質を維持します。

埋め込み(Embedding)

ModelVector dimsInput tokensMetric
@cf/qwen/qwen3-embedding-0.6b1,0244,096cosine
@cf/google/embeddinggemma-300m768512cosine
  • Qwen3-Embedding-0.6B は最大 4,096 トークンの入力をサポートしており、より長いテキストチャンクのインデックス作成に適しています。
  • EmbeddingGemma-300M(Google)は 768 次元のベクトルを生成し、低レイテンシな埋め込みワークロード向けに最適化されています。

利用方法

  • これら4つのモデルはいずれも Workers AI 上で動作するため、追加のプロバイダキーは不要です。
  • ダッシュボードまたは API を使って AI Search インスタンスを作成・更新する際に、これらのモデルを選択してください。
  • サポートされている全モデルの一覧については Supported models を参照してください。

ご不明点があればダッシュボードの設定や API ドキュメントを確認してください。