AI Search - New Workers AI models for text generation and embedding in AI Search | Cloudflare Developer Platform

openaienmodel: gpt-5-mini-2025-08-07

AI Search - New Workers AI models for text generation and embedding

workers ai text-generation embeddings long-context qwen glm search

Key Points

Four new Workers AI models added
GLM-4.7-Flash supports 131,072-token context
Embeddings: qwen 4,096-token input; embeddinggemma low-latency

Summary

Cloudflare AI Search now includes four additional Workers AI models for text generation and embeddings. These models run on Workers AI (no external provider keys required) and are available when creating or updating an AI Search instance via the dashboard or the API. The additions target long-context generation and higher-capacity embeddings for indexing longer chunks or low-latency embedding workloads.

Key Points

New text-generation models:
- @cf/zai-org/glm-4.7-flash — GLM-4.7-Flash with a 131,072-token context window; ideal for long-document summarization and retrieval tasks.
- @cf/qwen/qwen3-30b-a3b-fp8 — Qwen3-30B-A3B MOE model that activates ~3B parameters per forward pass for faster inference while keeping strong response quality; 32,000-token context.
New embedding models:
- @cf/qwen/qwen3-embedding-0.6b — 1,024-d vectors, supports up to 4,096 input tokens; suited for indexing longer text chunks; cosine similarity recommended.
- @cf/google/embeddinggemma-300m — 768-d vectors optimized for low-latency embedding workloads; cosine similarity recommended.
Operational notes for engineers:
- No additional provider keys required — models run on Workers AI.
- Select these models in the AI Search dashboard or specify them via the API when creating/updating an AI Search instance.
- Use high-context models for long-document summarization/retrieval; choose embedding size and token support based on indexing chunk size and latency requirements.

Actionable recommendations

For long documents or RAG flows, prefer @cf/zai-org/glm-4.7-flash (131k tokens) or @cf/qwen/qwen3-30b-a3b-fp8 (32k tokens) depending on latency/quality tradeoffs.
For embedding large text chunks, use @cf/qwen/qwen3-embedding-0.6b (4k input tokens, 1024-d) to reduce chunking; use @cf/google/embeddinggemma-300m for lower-latency, smaller vectors.
Test cosine similarity for nearest-neighbor search and tune chunk sizes against model token limits.

Reference

Published: 2026-04-08 Models available in Workers AI: @cf/zai-org/glm-4.7-flash, @cf/qwen/qwen3-30b-a3b-fp8, @cf/qwen/qwen3-embedding-0.6b, @cf/google/embeddinggemma-300m

テキスト生成

Model	Context window (tokens)
`@cf/zai-org/glm-4.7-flash`	131,072
`@cf/qwen/qwen3-30b-a3b-fp8`	32,000

Model

Context window (tokens)

@cf/zai-org/glm-4.7-flash

131,072

@cf/qwen/qwen3-30b-a3b-fp8

32,000

GLM-4.7-Flash は Zhipu AI による軽量モデルで、131,072 トークンのコンテキストウィンドウを持ち、長文の要約やリトリーバル用途に適しています。

Qwen3-30B-A3B は Alibaba の Mixture-of-Experts モデルで、順伝播ごとにわずか 30 億（3,000,000,000）パラメータのみをアクティベートするため、推論が高速でありつつ高い応答品質を維持します。

埋め込み（Embedding）

Model	Vector dims	Input tokens	Metric
`@cf/qwen/qwen3-embedding-0.6b`	1,024	4,096	cosine
`@cf/google/embeddinggemma-300m`	768	512	cosine

Model

Vector dims

Input tokens

Metric

@cf/qwen/qwen3-embedding-0.6b

1,024

4,096

cosine

@cf/google/embeddinggemma-300m

768

512

cosine

Qwen3-Embedding-0.6B は最大 4,096 トークンの入力をサポートしており、より長いテキストチャンクのインデックス作成に適しています。

EmbeddingGemma-300M（Google）は 768 次元のベクトルを生成し、低レイテンシな埋め込みワークロード向けに最適化されています。

利用方法

これら4つのモデルはいずれも Workers AI 上で動作するため、追加のプロバイダキーは不要です。

ダッシュボードまたは API を使って AI Search インスタンスを作成・更新する際に、これらのモデルを選択してください。

サポートされている全モデルの一覧については Supported models を参照してください。

ご不明点があればダッシュボードの設定や API ドキュメントを確認してください。

AI Search - New Workers AI models for text generation and embedding in AI Search

Summary

Summary

Key Points

Actionable recommendations

Reference

Translations

AI Search — 新しい Workers AI モデル（テキスト生成と埋め込み）

テキスト生成

埋め込み（Embedding）

利用方法