ClaudeGeminiApr 2, 2026, 4:00 PM

Gemma 4: Byte for byte, the most capable open models

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-sonnet-4-20250514

Gemma 4: Most Capable Open Models with Apache 2.0 License

Key Points

  • Apache 2.0 licensed open models with frontier-level capabilities
  • Four model sizes optimized from mobile devices to workstations
  • Native multimodal support with function calling and agentic workflows

Summary

Google DeepMind has released Gemma 4, their most intelligent open model family to date, built from the same technology as Gemini 3. The models are released under Apache 2.0 license and come in four sizes: E2B, E4B, 26B MoE, and 31B Dense, designed for advanced reasoning and agentic workflows.

Key Points

  • Model Variants: Four sizes optimized for different hardware - E2B/E4B for mobile/edge devices, 26B MoE for low-latency inference, 31B Dense for maximum quality
  • Advanced Capabilities: Native support for function calling, structured JSON output, multimodal processing (vision/audio), 128K-256K context windows, and 140+ languages
  • Hardware Optimization: Runs efficiently from Android devices to consumer GPUs, with quantized versions for local deployment
  • Ecosystem Integration: Day-one support for popular frameworks including Hugging Face, vLLM, llama.cpp, NVIDIA NIM, and deployment on Google Cloud
  • Performance: 31B model ranks #3 globally on Arena AI leaderboard, outcompeting models 20x its size
  • Open Source: Apache 2.0 license provides commercial flexibility and complete developer control over data and infrastructure

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-sonnet-4-20250514

Gemma 4: バイト単位で最も高性能なオープンモデル

本日、私たちは最も知的なオープンモデルであるGemma 4を発表します。高度な推論とエージェント的ワークフローのために特別に構築されたGemma 4は、パラメータあたりの知能において前例のないレベルを実現しています。この画期的な成果は、素晴らしいコミュニティの勢いの上に築かれています。第一世代の発売以来、開発者はGemmaを4億回以上ダウンロードし、100,000以上のバリアントからなる活気あるGemmaverseを構築してきました。

私たちはイノベーターがAIの境界を押し広げるために次に何が必要かを注意深く聞き、Gemma 4がその答えです。Apache 2.0ライセンスの下で広くアクセス可能にされた画期的な機能です。

業界をリードする機能とモバイルファーストAI

Gemma 4を4つの汎用サイズでリリースします:

  • Effective 2B (E2B)
  • Effective 4B (E4B)
  • 26B Mixture of Experts (MoE)
  • 31B Dense

ファミリー全体が単純なチャットを超えて、複雑なロジックとエージェント的ワークフローを処理します。大型モデルはそのサイズに対して最先端のパフォーマンスを提供し、31Bモデルは現在、業界標準のArena AIテキストリーダーボードで世界第3位のオープンモデルにランクされ、26Bモデルは第6位を確保しています。そこで、Gemma 4は20倍のサイズのモデルを上回っています。

開発者にとって、この新しいレベルのパラメータあたりの知能は、大幅に少ないハードウェアオーバーヘッドでフロンティアレベルの機能を実現することを意味します。エッジでは、E2BとE4Bモデルがオンデバイスユーティリティを再定義し、生のパラメータ数よりもマルチモーダル機能、低遅延処理、シームレスなエコシステム統合を優先しています。

強力で、アクセス可能で、オープン

次世代の先駆的な研究と製品を支援するため、Gemma 4モデルは世界中の数十億のAndroidデバイスから、ラップトップGPU、開発者ワークステーション、アクセラレータまで、ハードウェア上で効率的に実行・微調整できるよう特別にサイズ設定されています。

これらの高度に最適化されたモデルを使用することで、特定のタスクで最先端のパフォーマンスを達成するようにGemma 4を微調整できます。このアプローチですでに素晴らしい成功を収めており、例えばINSAITがブルガリア語ファーストの先駆的言語モデル(BgGPT)を作成し、がん治療の新しい経路を発見するためにイェール大学とCell2Sentence-Scaleで協力するなど、多くの事例があります。

Gemma 4を最も高性能なオープンモデルファミリーにする特徴:

  • 高度な推論: 多段階計画と深いロジックが可能で、Gemma 4は数学と指示従順性ベンチマークで大幅な改善を示しています
  • エージェント的ワークフロー: 関数呼び出し、構造化JSON出力、ネイティブシステム指示のネイティブサポートにより、異なるツールやAPIと相互作用し、ワークフローを確実に実行できる自律エージェントを構築できます
  • コード生成: Gemma 4は高品質なオフラインコードをサポートし、ワークステーションをローカルファーストAIコードアシスタントに変えます
  • ビジョンとオーディオ: すべてのモデルがビデオと画像をネイティブに処理し、可変解像度をサポートし、OCRやチャート理解などの視覚タスクに優れています。さらに、E2BとE4Bモデルは音声認識と理解のためのネイティブオーディオ入力機能を備えています
  • 長いコンテキスト: 長文コンテンツをシームレスに処理します。エッジモデルは128Kコンテキストウィンドウを備え、大型モデルは最大256Kを提供し、単一のプロンプトでリポジトリや長いドキュメントを渡すことができます
  • 140以上の言語: 140以上の言語でネイティブに訓練されたGemma 4は、開発者がグローバルオーディエンス向けの包括的で高性能なアプリケーションを構築するのを支援します

多様なハードウェア向けの汎用モデル

特定のハードウェアとユースケースに合わせたサイズでGemma 4モデルウェイトをリリースし、必要な場所でフロンティアクラスの推論を確実に得られるようにします:

26Bと31Bモデル:パーソナルコンピュータでのフロンティア知能、オフライン

研究者と開発者にアクセス可能なハードウェアで最先端の推論を提供するよう最適化され、量子化されていないbfloat16ウェイトは単一の80GB NVIDIA H100 GPU上で効率的に適合します。ローカルセットアップでは、量子化バージョンがコンシューマGPU上でネイティブに実行され、IDE、コーディングアシスタント、エージェント的ワークフローを支援します。

E2BとE4Bモデル:モバイルとIoTデバイス向けの新しいレベルの知能

最大の計算とメモリ効率のためにゼロから設計されたこれらのモデルは、推論中に実効20億と40億パラメータのフットプリントを活性化し、RAMとバッテリー寿命を保持します。Google PixelチームやモバイルハードウェアリーダーであるQualcomm TechnologiesやMediaTekとの密接な協力により、これらのマルチモーダルモデルは電話、Raspberry Pi、NVIDIAとJetson Orin Nanoなどのエッジデバイス全体で、ほぼゼロ遅延で完全にオフラインで実行されます。

オープンソースライセンス

フィードバックをいただき、私たちは耳を傾けました。AIの未来を構築するには協力的なアプローチが必要であり、制限的な障壁なしに開発者エコシステムを強化することを信じています。そのため、Gemma 4は商業的に許可されたApache 2.0ライセンスの下でリリースされます。

このオープンソースライセンスは、完全な開発者の柔軟性とデジタル主権の基盤を提供し、データ、インフラストラクチャ、モデルの完全な制御を付与します。オンプレミスでもクラウドでも、あらゆる環境で自由に構築し、安全にデプロイできます。

信頼と安全の基盤の上に構築

これらのモデルは、私たちの独自モデルと同じ厳格なインフラストラクチャセキュリティプロトコルを受けています。Gemma 4を選択することで、企業と主権組織は、セキュリティと信頼性の最高基準を満たしながら最先端の機能を提供する、信頼できる透明な基盤を得ます。

選択肢のエコシステム

数秒で実験を開始:

Gemma 4への即座のアクセスを取得し、すぐに構築を開始します。Google AI Studio(31Bと26B MoE)またはGoogle AI Edge Gallery(E4BとE2B)でGemma 4を探索してください。Android開発では、Android StudioのAgent Modeを支援し、ML Kit GenAI Prompt APIでAndroid向けの本番アプリの構築を開始してください。

お気に入りのツールを使用:

Hugging Face(Transformers、TRL、Transformers.js、Candle)、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIMとNeMo、LM Studio、Unsloth、SGLang、Cactus、Baseten、Docker、MaxText、Tunix、Kerasの初日サポートにより、プロジェクトに最適なツールを選択する柔軟性があります。

モデルをダウンロード:

Hugging Face、Kaggle、またはOllamaからモデルウェイトを取得してください。

特定のニーズにGemma 4をカスタマイズ:

Google Colab、Vertex AI、またはゲーミングGPUなど、お好みのプラットフォームを使用してモデルを訓練・適応させてください。

Google Cloudで本番環境にスケール:

ローカルオンデバイス推論はオフライン使用に理想的ですが、Google Cloudはすべての計算上限を取り除きます。Vertex AI、Cloud Run、GKE、Sovereign Cloud、TPU加速サービング、規制されたワークロードに対する最高のコンプライアンス保証を通じて、あなたの方法でデプロイしてください。

複数のハードウェアプラットフォーム全体でAI開発を加速:

Gemma 4は業界をリードするハードウェアに対してすぐに最適化されています。NVIDIA Jetson Orin NanoからBlackwell GPUまでのNVIDIA AIインフラストラクチャで最大のパフォーマンスを体験し、オープンソースROCm™スタックを介してAMD GPUと統合するか、大規模スケールと効率のためにTrilliumとIronwood TPUにデプロイしてください。

影響のために競争:

KaggleのGemma 4 Good Challengeに参加して、世界に意味のある前向きな変化を生み出す製品を構築してください。