Workers AI に NVIDIA Nemotron 3 Super が追加
Key Points
- NVIDIA Nemotron 3 Super が Workers AI で利用開始
- 従来モデル比50%以上のトークン生成スループット向上
- AIエージェント協調動作に最適化されたMoEアーキテクチャ
Summary
Cloudflare が NVIDIA と提携し、Workers AI プラットフォームに NVIDIA Nemotron 3 Super モデル(@cf/nvidia/nemotron-3-120b-a12b)を追加しました。このモデルは Mixture-of-Experts (MoE) アーキテクチャを採用し、AIエージェントの協調動作に最適化されています。
Key Points
- アーキテクチャ: ハイブリッド Mamba-transformer 構造で、従来のオープンモデルと比較して50%以上高いトークン生成スループットを実現
- パラメータ: 総パラメータ数120B、フォワードパス毎のアクティブパラメータ数12B
- 主要機能:
- ツール呼び出しサポートによるマルチターン会話でのAIエージェント構築
- Multi-Token Prediction (MTP) による長文生成の高速化
- 32,000トークンのコンテキストウィンドウ
- 最適化: マルチターン会話では
x-session-affinityヘッダーでプロンプトキャッシュを有効化 - アクセス方法: Workers AI バインディング、REST API、OpenAI互換エンドポイントで利用可能