Workers AIでGoogle Gemma 4 26B A4Bが利用可能に
Key Points
- MoEで4B相当の高速推論
- 最大256kトークンの長期コンテキスト
- Workers AIでenv.AI.run()から利用可
Summary
GoogleのGemma 4 26B A4B(Mixture-of-Experts, MoE)がWorkers AIで利用可能になりました。総パラメータは26Bながら、推論時には約4B相当のアクティブパラメータで動作するため、低コストかつ高性能な推論が可能です。エンジニア向けには長文コンテキスト、マルチモーダル解析、ツール呼び出しベースのワークフローに最適です。
Key Points
- アーキテクチャ: MoE(128エキスパート+共有1、推論時に8エキスパートがアクティブ)、26B総パラメータ/4Bアクティブ相当の高速化
- 長期コンテキスト: 最大256,000トークンのコンテキストウィンドウで会話履歴や長文を保持
- 推論機能: "thinking mode"(ステップ思考)で複雑タスクの精度向上
- マルチモーダル: 物体検出、PDF/ドキュメント解析、画面/UI理解、チャート解析、OCR(多言語)や手書き認識をサポート
- ツール連携: ネイティブな関数呼び出し(function calling)でエージェント的ワークフローやマルチステップ計画に対応
- 言語・コーディング: 35以上の言語を標準サポート、コード生成・補完・修正にも利用可能
- 利用方法: Workers AIバインディング(env.AI.run())、RESTエンドポイント(
/runまたは/v1/chat/completions)、OpenAI互換エンドポイントで利用可能
Practical notes
- 長い会話履歴や大規模ドキュメント処理、マルチモーダル解析、ツール駆動の自動化エージェントで効果を発揮します。
- 運用上はレイテンシとコストを密に計測し、4B相当の応答速度と大型モデルの品質のトレードオフを評価してください。
- 詳細や制限はGemma 4 26B A4BのモデルページとCloudflareドキュメントを参照してください。