NVIDIA Nemotron 3 SuperがWorkers AIで利用可能になりました

2026年3月11日

NVIDIAとのパートナーシップにより、@cf/nvidia/nemotron-3-120b-a12bをWorkers AIに導入できることを嬉しく思います。

NVIDIA Nemotron 3 Superは、ハイブリッドMamba-transformerアーキテクチャを採用したMixture-of-Experts（MoE）モデルで、総パラメータ数120B、フォワードパスあたりのアクティブパラメータ数12Bを持ちます。このモデルは、アプリケーションごとに多数の協調エージェントを実行するために最適化されています。複雑な多段階タスクにおいて、推論、ツール呼び出し、指示実行において高い精度を提供します。

主要機能

ハイブリッドMamba-transformerアーキテクチャ：主要なオープンモデルと比較して50%以上高いトークン生成スループットを実現し、実世界のアプリケーションでのレイテンシを削減
ツール呼び出しサポート：複数の会話ターンにわたってツールを呼び出すAIエージェントの構築が可能
Multi-Token Prediction（MTP）：単一のフォワードパスで複数の将来のトークンを同時に予測することで、長文テキスト生成を高速化
32,000トークンのコンテキストウィンドウ：多段階エージェントワークフローにわたって会話履歴と計画状態を保持
プロンプトキャッシュ

プロンプトキャッシュ

多ターン会話での最適なパフォーマンスを得るには、一意のセッション識別子を持つx-session-affinityヘッダーを送信してプロンプトキャッシュを有効にしてください。これにより、リクエストが同じモデルインスタンスにルーティングされ、レイテンシと推論コストが削減されます。詳細については、プロンプトキャッシュを参照してください。

使用方法

Nemotron 3 Superは以下の方法で使用できます：

Workers AIバインディング（env.AI.run()）
REST API（/runまたは/v1/chat/completions）
OpenAI互換エンドポイント

詳細については、Nemotron 3 Superモデルページを参照してください。

Workers AI - NVIDIA Nemotron 3 Super now available on Workers AI

要約

Summary

Key Points

翻訳

NVIDIA Nemotron 3 SuperがWorkers AIで利用可能になりました

主要機能

プロンプトキャッシュ

使用方法