OpenAIGemini2026/04/02 16:00

Gemma 4: Byte for byte, the most capable open models

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

Gemma 4:バイト単位で最も高性能なオープンモデル

Key Points

  • オンデバイス低遅延対応
  • 128K〜256Kの長文コンテキスト
  • Apache 2.0で商用利用可

Summary

Gemma 4は、エッジからワークステーションまで効率よく動作するマルチサイズのオープンモデルファミリです。目的は高度な推論とエージェント的ワークフローの実行で、Apache 2.0で商用利用可能な重みを提供します。E2B/E4Bはオンデバイス低遅延、26B MoEと31B Denseはローカルでの最先端推論を狙います。

Key Points

  • モデル構成: E2B (effective 2B)、E4B (effective 4B)、26B MoE(推論時3.8B活性化)、31B Dense
  • マルチモーダル: 画像・映像・OCR・チャート理解をネイティブ対応。E2B/E4Bは音声入力をサポート
  • 長文コンテキスト: エッジモデルは128K、より大きなモデルは最大256Kコンテキストを処理
  • エージェント機能: 関数呼び出し、構造化JSON出力、ネイティブsystem指示で自律ワークフロー構築可能
  • ハードウェアと実行: unquantized bfloat16は単一の80GB H100に収まる。量子化版で消費者GPU/Jetson/Raspberry Pi上の推論が可能
  • 配布と互換性: Apache 2.0ライセンス、重みはHugging Face/Kaggle/Ollama。Transformers, vLLM, llama.cpp等に対応

実務的な導入手順(簡潔)

  • ダウンロード: まずHugging Face/Kaggle/Ollamaから適切な重み(量子化版/非量子化版)を取得
  • ローカル実行: 量子化版を使いIDEやコーディング補助、エージェント統合を試す
  • ファインチューニング: 小〜中規模GPUまたはクラウド(Colab/Vertex AI)でタスク特化して性能を引き出す
  • デプロイ戦略: オフライン・低遅延要件はE2B/E4B、最高品質は31B、低レイテンシ高TPSは26B MoEを選択

参考

  • ダウンロード先: Hugging Face / Kaggle / Ollama
  • 推奨環境: 80GB H100(unquantized)、量子化で消費者GPUやJetson/Orin、Android端末でのエッジ利用

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

Gemma 4:バイト単位で最も高性能なオープンモデル

概要

本日、私たちは Gemma 4 を発表します — これまでで最も知能的なオープンモデル群です。高度な推論やエージェント的ワークフロー向けに設計され、パラメータあたりの知能(intelligence-per-parameter)が前例のない水準に到達しました。

このブレイクスルーはコミュニティの大きな勢いに支えられています。第1世代のリリース以降、開発者は Gemma を4億回以上ダウンロードし、100,000以上のバリアントから成る活発な「Gemmaverse」が生まれました。私たちはイノベーターが次に何を必要としているかを注意深く聞き、Gemma 4 はその答えです:Apache 2.0 license のもとで広く利用可能なブレイクスルー性能。

オープンモデルの性能対サイズ(Arena.ai の chat arena、4/1時点)において、Gemma 4 は同一の最先端研究とテクノロジー(Gemini 3 と同等)を基盤にしており、ローカルハードウェア上で動作させられる最も高性能なモデルファミリーです。Gemini 系モデルと補完関係にあり、オープン/プロプライエタリ双方の業界で最も強力な組み合わせを開発者に提供します。

このコンテンツは Google AI によって生成されています。Generative AI は実験的です。


リリースされたモデルサイズ

Gemma 4 は4つの汎用的なサイズで提供されます:

  • Effective 2B (E2B)
  • Effective 4B (E4B)
  • 26B Mixture of Experts (MoE)
  • 31B Dense

これら全てのモデルは、単なるチャットを越えて複雑なロジックやエージェントワークフローを扱えるよう設計されています。

  • 31B モデルは現在、業界標準の Arena AI text leaderboard でオープンモデルとして世界で #3 にランクされ、26B モデルは #6 を獲得しています。ここでは Gemma 4 が自身の20倍のサイズのモデルを打ち負かす場面もあります。
  • 開発者にとって、パラメータあたりのインテリジェンス向上は、はるかに少ないハードウェアで最先端の能力を達成できることを意味します。

業界をリードする機能(モバイルファースト)

  • 高度な推論:マルチステップ計画や深い論理推論が可能で、数学や指示従順性を要求するベンチマークで大幅な改善を示します。
  • エージェント的ワークフロー:function-calling、構造化された JSON 出力、ネイティブの system instructions をサポートし、ツールやAPIと連携して安定的にワークフローを実行する自律エージェントを構築できます。
  • コード生成:オフラインで高品質なコード生成をサポートし、ワークステーションをローカル中心のAIコードアシスタントに変えます。
  • Vision と Audio:すべてのモデルが動画や画像をネイティブに処理し、可変解像度に対応。OCR やチャート理解のような視覚タスクに優れます。E2B と E4B はネイティブな音声入力(音声認識・理解)にも対応します。
  • 長いコンテキスト:長文コンテンツをシームレスに処理。エッジ向けモデルは128Kのコンテキストウィンドウ、より大きなモデルは最大256Kを提供し、リポジトリや長文を1つのプロンプトで渡せます。
  • 140+ 言語:140以上の言語でネイティブに訓練され、グローバルなユーザーに向けた包括的で高性能なアプリケーション構築を助けます。

ハードウェア別の用途に最適化されたモデル

26B と 31B モデル:個人のPCでのフロンティア級推論

  • 研究者と開発者にアクセス可能なハードウェア上で最先端の推論を提供するよう最適化。
  • unquantized bfloat16 weights は単一の80GB NVIDIA H100 GPU に効率良く収まります。
  • ローカルセットアップ向けには量子化版がコンシューマGPU上でネイティブに動作し、IDE、コードアシスタント、エージェントワークフローを駆動します。
  • 26B Mixture of Experts (MoE) はレイテンシを重視し、推論時に総パラメータのうち3.8 billionのみをアクティブ化して非常に高速な tokens-per-second を実現します。
  • 31B Dense は生の品質を最大化し、ファインチューニングの強固な基盤を提供します。
  • これらのモデルはテキスト生成のさまざまな側面をカバーするため、多数のデータセットと指標で評価されています。追加ベンチマークは model card を参照してください。

E2B と E4B モデル:モバイル・IoT 向けの新基準

  • コンピュートとメモリ効率を最大化するよう設計され、推論時にはそれぞれ効果的に2B、4Bのパラメータフットプリントをアクティブ化してRAMとバッテリー消費を節約します。
  • Google Pixel チームや Qualcomm Technologies、MediaTek などのモバイルハードウェアリーダーと密接に協力して開発。
  • これらのマルチモーダルモデルは完全にオフラインで、低レイテンシでエッジデバイス(スマートフォン、Raspberry Pi、NVIDIA、Jetson Orin Nano など)上で動作します。
  • Android 開発者は AICore Developer Preview でエージェント的フローをプロトタイプでき、Gemini Nano 4 とのフォワード互換性を確保できます。

オープンソースライセンス

皆さんからのフィードバックを受け、Gemma 4 は商用利用を許容する Apache 2.0 license のもとでリリースされます。これは、開発者エコシステムに対する制約のない協働的アプローチを支えるための決定です。

  • Apache 2.0 はデータ、インフラ、モデルに対する完全なコントロールを開発者に付与し、オンプレミスやクラウド問わず自由に構築・デプロイできる基盤を提供します。

信頼性・安全性の基盤

  • これらのモデルはプロプライエタリモデルと同等の厳格なインフラセキュリティプロトコルを経ています。
  • Gemma 4 を選ぶことで、企業や主権組織は透明性のある信頼できる基盤を得られ、高いセキュリティと信頼性基準を満たしつつ最先端の能力を活用できます。

エコシステムと導入方法

  • 数秒で実験を開始:Gemma 4 に即時アクセスしてすぐに構築を始められます。

    • Google AI Studio(31B と 26B MoE)や Google AI Edge Gallery(E4B と E2B)で探索可能。
    • Android 開発では Agent Mode を Android Studio で活用でき、ML Kit GenAI Prompt API を使って Android 向けに本番アプリを構築できます。
  • お好みのツールを利用可能:リリース初日から以下をサポートします。

    • Hugging Face (Transformers, TRL, Transformers.js, Candle)
    • LiteRT-LM, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM and NeMo
    • LM Studio, Unsloth, SGLang, Cactus, Baseten, Docker, MaxText, Tunix, Keras など
  • モデルのダウンロード:モデルウェイトは Hugging Face、Kaggle、Ollama から入手可能。

  • カスタマイズ:Google Colab、Vertex AI、あるいはゲーミングGPUを使ってモデルをトレーニング/適応できます。

  • Google Cloud での本番スケール:ローカルのオンデバイス推論はオフライン用途に最適ですが、Google Cloud により計算リソースの天井を取り除けます。Vertex AI、Cloud Run、GKE、Sovereign Cloud、TPU-accelerated serving を通じたデプロイや、規制されたワークロード向けの最高水準のコンプライアンスが利用可能です。詳しくは Google Cloud の「getting started」情報をご覧ください。


ハードウェア最適化とパフォーマンス

  • Gemma 4 は業界をリードするハードウェア向けに最適化済みです。
    • NVIDIA(Jetson Orin Nano から Blackwell GPUs)で最大性能を体験できます。
    • AMD GPU とはオープンソースの ROCm™ スタック経由で統合可能。
    • Trillium や Ironwood TPU 上で大規模かつ効率的にデプロイできます。

コミュニティと競争

  • Gemma 4 Good Challenge on Kaggle に参加して、世界に意義あるポジティブな変化をもたらすプロダクト作りに挑戦してください。

採用事例

  • INSAIT は BgGPT(ブルガリア語優先モデル)を作成するなど、Gemma 4 を活用した先駆的な成果が既に報告されています。
  • Yale University との共同研究(Cell2Sentence-Scale)では、がん治療の新しい経路発見に貢献しました。

結び

Gemma 4 は、モバイルからラボ、クラウドまで幅広いハードウェアで最前線の推論を実行できるよう設計された、最も能力の高いオープンモデルです。開発者と研究者が制約なく実験・構築できるよう、性能、効率、オープン性のバランスを追求しました。今すぐ Gemma 4 を試して、新しいアプリケーションや研究を推進してください。