OpenAICloudflare Developer PlatformApr 4, 2026, 12:00 AM

Workers AI - Google Gemma 4 26B A4B now available on Workers AI

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Workers AI - Google Gemma 4 26B A4B now available on Workers AI

Key Points

  • MoE 26B total, ~4B active
  • 256k token context window
  • Available via env.AI.run() and REST endpoints

Summary

Cloudflare Workers AI now supports Google Gemma 4 26B A4B. Gemma 4 26B A4B is a Mixture-of-Experts (MoE) model (26B parameters total, ~4B active per forward pass) that delivers large-model quality with near-4B compute cost. It offers a 256k-token context window, reasoning "thinking" mode, strong multimodal (vision + OCR) capabilities, function-calling for tool workflows, multilingual support, and improved coding assistance.

Key Points

  • Architecture: Mixture-of-Experts with 8 active experts out of 128 (+1 shared) to reduce inference compute while retaining high performance.
  • Context: 256,000 token window to preserve long conversation history, documents, and tool definitions across sessions.
  • Reasoning & tools: Built-in step-by-step thinking mode and native function-calling to enable agentic, multi-step workflows.
  • Vision: Object detection, document/PDF parsing, UI/screen understanding, chart comprehension, multilingual OCR, and handwriting recognition.
  • Multilingual & coding: Pretrained on 140+ languages with out-of-the-box support for 35+ languages; optimized for code generation, completion, and correction.

Usage

  • Workers AI binding: call via env.AI.run().
  • REST API: /run or /v1/chat/completions.
  • OpenAI-compatible endpoint is also supported.

Practical Notes

  • Expect latency and cost similar to a 4B dense model for many use cases but with accuracy closer to larger dense models; evaluate on your workloads.
  • See the Gemma 4 26B A4B model page for model specifics, limits, and best practices.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

Workers AI - Google Gemma 4 26B A4B が Workers AI で利用可能に

Google Gemma 4 26B A4B が Workers AI で利用可能に

公開日: 2026-04-04

私たちは Google と提携し、@cf/google/gemma-4-26b-a4b-it を Workers AI に導入しました。Gemma 4 26B A4B は Gemini 3 の研究に基づく Mixture-of-Experts (MoE) モデルで、総パラメータ数は 26B、1 回のフォワードパスあたりアクティブになるのはわずか 4B です。推論時にパラメータの小さなサブセットを活性化することで、ほぼ 4B パラメータモデルと同等の速度で動作しつつ、はるかに大きなモデルに匹敵する品質を提供します。

主な機能

  • Mixture-of-Experts (MoE) アーキテクチャ
    • 128 個のエキスパートのうち 8 個がアクティブ(+1 共有エキスパート)
    • 密な(dense)モデルと比べて計算コストを大幅に削減しつつフロンティアレベルの性能を発揮
  • 長大コンテキスト対応
    • 256,000 トークンのコンテキストウィンドウで会話履歴、ツール定義、長文ドキュメントを保持可能
  • 組み込みの思考モード(built-in thinking mode)
    • 回答前にステップバイステップで推論し、複雑なタスクの精度を向上
  • ビジョン理解
    • 物体検出、ドキュメント/PDF パース、画面・UI 理解、チャート理解、OCR(多言語対応)、手書き認識
    • 可変アスペクト比および解像度をサポート
  • Function calling
    • 構造化ツール利用をネイティブにサポートし、エージェント的ワークフローやマルチステップ計画を実現
  • 多言語対応
    • 35+ 言語をそのままサポート、140+ 言語で事前学習済み
  • コーディング支援
    • コード生成、補完、修正に対応

利用方法

以下のいずれかの方法で Gemma 4 26B A4B を利用できます:

  • Workers AI バインディング: env.AI.run() を使用
  • REST API: POST /run または POST /v1/chat/completions
  • OpenAI 互換エンドポイント

詳細な使用例やパラメータ、レート制限などは Gemma 4 26B A4B のモデルページを参照してください。

リソース

  • モデル: Gemma 4 26B A4B model page
  • API ドキュメント: Workers AI バインディングおよび REST API のドキュメントを参照

このリリースにより、低い推論コストで高性能な大規模モデルをエッジ上で活用できるようになります。フィードバックや問題報告は Cloudflare のサポートチャネルをご利用ください。