OpenAICloudflare Developer Platform2026/04/08 0:00

AI Search - New Workers AI models for text generation and embedding in AI Search

要点だけを先に読めるように短く再構成したセクションです。

元記事

OpenAI Claude

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

AI Search：Workers AIでテキスト生成と埋め込みの新モデルを追加

workers-ai text-generation embeddings long-context qwen

Key Points

131,072トークン対応モデル追加
4,096トークン対応埋め込み
Workers AIで追加キー不要

Summary

AI SearchにWorkers AI上で動作する4つの新モデルが追加されました。テキスト生成向けに長文処理可能なGLM-4.7-Flash（131,072トークン）と、Mixture-of-Experts設計で高速なQwen3-30B-A3B（32,000トークン）。埋め込み向けに長い入力を扱えるqwen3-embedding-0.6b（1,024次元、最大4,096トークン）と低レイテンシ向けのembeddinggemma-300m（768次元）を提供します。これらは追加の提供元キー不要で、ダッシュボードまたはAPIからAI Searchインスタンス作成・更新時に選択可能です。

Key Points

新規テキスト生成モデル
- @cf/zai-org/glm-4.7-flash：131,072トークンの超長文コンテキスト、長文要約・リトリーバルに最適。
- @cf/qwen/qwen3-30b-a3b-fp8：32,000トークン、MoEで実行時に3Bパラメータのみ活性化し高速かつ高品質な応答。
新規埋め込みモデル
- @cf/qwen/qwen3-embedding-0.6b：1,024次元、最大4,096トークンの入力対応で長いテキストチャンクのインデックス向け。
- @cf/google/embeddinggemma-300m：768次元、低レイテンシ埋め込み用途に最適。
運用面のポイント
- いずれのモデルもWorkers AI上で動作し、追加のプロバイダキーは不要。
- ダッシュボードまたはAPIでAI Searchインスタンス作成／更新時に選択可能。
- 推奨選択例：長文要約や長いコンテキストの検索はGLM-4.7-Flash、低レイテンシなベクトル化が必要ならembeddinggemma-300m、長いチャンクをそのままインデックスするならqwen3-embeddingを使用。

参照：Supported models（ダッシュボード／APIでのモデル一覧を確認してください）

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

AI Search — AI Search におけるテキスト生成および埋め込み向けの新しい Workers AI モデル

AI Search — 新しい Workers AI モデル（テキスト生成と埋め込み）

公開日: 2026-04-08

AI Search は、テキスト生成と埋め込みの両分野で新たに4つの Workers AI モデルをサポートします。以下のモデルが追加されました。

テキスト生成

Model	Context window (tokens)
`@cf/zai-org/glm-4.7-flash`	131,072
`@cf/qwen/qwen3-30b-a3b-fp8`	32,000

GLM-4.7-Flash は Zhipu AI による軽量モデルで、131,072 トークンのコンテキストウィンドウを持ち、長文の要約やリトリーバル用途に適しています。
Qwen3-30B-A3B は Alibaba の Mixture-of-Experts モデルで、順伝播ごとにわずか 30 億（3,000,000,000）パラメータのみをアクティベートするため、推論が高速でありつつ高い応答品質を維持します。

埋め込み（Embedding）

Model	Vector dims	Input tokens	Metric
`@cf/qwen/qwen3-embedding-0.6b`	1,024	4,096	cosine
`@cf/google/embeddinggemma-300m`	768	512	cosine

Qwen3-Embedding-0.6B は最大 4,096 トークンの入力をサポートしており、より長いテキストチャンクのインデックス作成に適しています。
EmbeddingGemma-300M（Google）は 768 次元のベクトルを生成し、低レイテンシな埋め込みワークロード向けに最適化されています。

利用方法

これら4つのモデルはいずれも Workers AI 上で動作するため、追加のプロバイダキーは不要です。
ダッシュボードまたは API を使って AI Search インスタンスを作成・更新する際に、これらのモデルを選択してください。
サポートされている全モデルの一覧については Supported models を参照してください。

ご不明点があればダッシュボードの設定や API ドキュメントを確認してください。