OpenAICloudflare Developer Platform2026/04/08 0:00

AI Search - New Workers AI models for text generation and embedding in AI Search

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

AI Search:Workers AIでテキスト生成と埋め込みの新モデルを追加

Key Points

  • 131,072トークン対応モデル追加
  • 4,096トークン対応埋め込み
  • Workers AIで追加キー不要

Summary

AI SearchにWorkers AI上で動作する4つの新モデルが追加されました。テキスト生成向けに長文処理可能なGLM-4.7-Flash(131,072トークン)と、Mixture-of-Experts設計で高速なQwen3-30B-A3B(32,000トークン)。埋め込み向けに長い入力を扱えるqwen3-embedding-0.6b(1,024次元、最大4,096トークン)と低レイテンシ向けのembeddinggemma-300m(768次元)を提供します。これらは追加の提供元キー不要で、ダッシュボードまたはAPIからAI Searchインスタンス作成・更新時に選択可能です。

Key Points

  • 新規テキスト生成モデル
    • @cf/zai-org/glm-4.7-flash:131,072トークンの超長文コンテキスト、長文要約・リトリーバルに最適。
    • @cf/qwen/qwen3-30b-a3b-fp8:32,000トークン、MoEで実行時に3Bパラメータのみ活性化し高速かつ高品質な応答。
  • 新規埋め込みモデル
    • @cf/qwen/qwen3-embedding-0.6b:1,024次元、最大4,096トークンの入力対応で長いテキストチャンクのインデックス向け。
    • @cf/google/embeddinggemma-300m:768次元、低レイテンシ埋め込み用途に最適。
  • 運用面のポイント
    • いずれのモデルもWorkers AI上で動作し、追加のプロバイダキーは不要。
    • ダッシュボードまたはAPIでAI Searchインスタンス作成/更新時に選択可能。
    • 推奨選択例:長文要約や長いコンテキストの検索はGLM-4.7-Flash、低レイテンシなベクトル化が必要ならembeddinggemma-300m、長いチャンクをそのままインデックスするならqwen3-embeddingを使用。

参照:Supported models(ダッシュボード/APIでのモデル一覧を確認してください)

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

AI Search — AI Search におけるテキスト生成および埋め込み向けの新しい Workers AI モデル

AI Search — 新しい Workers AI モデル(テキスト生成と埋め込み)

公開日: 2026-04-08

AI Search は、テキスト生成と埋め込みの両分野で新たに4つの Workers AI モデルをサポートします。以下のモデルが追加されました。

テキスト生成

ModelContext window (tokens)
@cf/zai-org/glm-4.7-flash131,072
@cf/qwen/qwen3-30b-a3b-fp832,000
  • GLM-4.7-Flash は Zhipu AI による軽量モデルで、131,072 トークンのコンテキストウィンドウを持ち、長文の要約やリトリーバル用途に適しています。
  • Qwen3-30B-A3B は Alibaba の Mixture-of-Experts モデルで、順伝播ごとにわずか 30 億(3,000,000,000)パラメータのみをアクティベートするため、推論が高速でありつつ高い応答品質を維持します。

埋め込み(Embedding)

ModelVector dimsInput tokensMetric
@cf/qwen/qwen3-embedding-0.6b1,0244,096cosine
@cf/google/embeddinggemma-300m768512cosine
  • Qwen3-Embedding-0.6B は最大 4,096 トークンの入力をサポートしており、より長いテキストチャンクのインデックス作成に適しています。
  • EmbeddingGemma-300M(Google)は 768 次元のベクトルを生成し、低レイテンシな埋め込みワークロード向けに最適化されています。

利用方法

  • これら4つのモデルはいずれも Workers AI 上で動作するため、追加のプロバイダキーは不要です。
  • ダッシュボードまたは API を使って AI Search インスタンスを作成・更新する際に、これらのモデルを選択してください。
  • サポートされている全モデルの一覧については Supported models を参照してください。

ご不明点があればダッシュボードの設定や API ドキュメントを確認してください。