Summary

Cloudflare has partnered with NVIDIA to bring the Nemotron 3 Super model (@cf/nvidia/nemotron-3-120b-a12b) to Workers AI. This Mixture-of-Experts (MoE) model features a hybrid Mamba-transformer architecture with 120B total parameters and 12B active parameters per forward pass, optimized for multi-agent applications.

Key Features

Hybrid Architecture: Mamba-transformer design delivers 50%+ higher token generation throughput compared to leading open models
Tool Calling: Native support for building AI agents that can invoke tools across multiple conversation turns
Multi-Token Prediction (MTP): Accelerates long-form text generation by predicting multiple future tokens simultaneously
Large Context Window: 32,000 token context for maintaining conversation history and agent state
Prompt Caching: Use x-session-affinity header with unique session ID for reduced latency and costs

Access Methods

Workers AI binding (env.AI.run())
REST API endpoints (/run or /v1/chat/completions)
OpenAI-compatible endpoint

claudejamodel: claude-sonnet-4-20250514

Workers AI - NVIDIA Nemotron 3 SuperがWorkers AIで利用可能になりました

NVIDIA Nemotron 3 SuperがWorkers AIで利用可能になりました

2026年3月11日

NVIDIAとのパートナーシップにより、@cf/nvidia/nemotron-3-120b-a12bをWorkers AIに導入できることを嬉しく思います。

NVIDIA Nemotron 3 Superは、ハイブリッドMamba-transformerアーキテクチャを採用したMixture-of-Experts（MoE）モデルで、総パラメータ数120B、フォワードパスあたりのアクティブパラメータ数12Bを持ちます。このモデルは、アプリケーションごとに多数の協調エージェントを実行するために最適化されています。複雑な多段階タスクにおいて、推論、ツール呼び出し、指示実行において高い精度を提供します。

主要機能

ハイブリッドMamba-transformerアーキテクチャ：主要なオープンモデルと比較して50%以上高いトークン生成スループットを実現し、実世界のアプリケーションでのレイテンシを削減
ツール呼び出しサポート：複数の会話ターンにわたってツールを呼び出すAIエージェントの構築が可能
Multi-Token Prediction（MTP）：単一のフォワードパスで複数の将来のトークンを同時に予測することで、長文テキスト生成を高速化
32,000トークンのコンテキストウィンドウ：多段階エージェントワークフローにわたって会話履歴と計画状態を保持
プロンプトキャッシュ

プロンプトキャッシュ

多ターン会話での最適なパフォーマンスを得るには、一意のセッション識別子を持つx-session-affinityヘッダーを送信してプロンプトキャッシュを有効にしてください。これにより、リクエストが同じモデルインスタンスにルーティングされ、レイテンシと推論コストが削減されます。詳細については、プロンプトキャッシュを参照してください。

使用方法

Nemotron 3 Superは以下の方法で使用できます：

Workers AIバインディング（env.AI.run()）
REST API（/runまたは/v1/chat/completions）
OpenAI互換エンドポイント

詳細については、Nemotron 3 Superモデルページを参照してください。

Workers AI - NVIDIA Nemotron 3 Super now available on Workers AI

Summary

Summary

Key Features

Access Methods

Translations

NVIDIA Nemotron 3 SuperがWorkers AIで利用可能になりました

主要機能

プロンプトキャッシュ

使用方法