OpenAICloudflare Developer PlatformMar 11, 2026, 12:00 AM

Workers AI - NVIDIA Nemotron 3 Super now available on Workers AI

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Workers AI - NVIDIA Nemotron 3 Super now available on Workers AI

Key Points

  • 120B total / 12B active params
  • 32,000 token context window
  • Use x-session-affinity for prompt caching

Summary

NVIDIA Nemotron 3 Super is now available on Workers AI. It's a Mixture-of-Experts (MoE) model with a hybrid Mamba-transformer architecture (120B total parameters, 12B active per forward pass) optimized for multi-agent and multi-turn applications that require high throughput, long contexts, tool calling, and fast long-form generation.

Key Points

  • Architecture: hybrid Mamba-transformer MoE — 120B total params, 12B active params per forward pass.
  • Throughput: over 50% higher token-generation throughput vs leading open models (lower latency for real-world apps).
  • Context: 32,000 token context window for long conversations, plan states, and agent workflows.
  • Multi-Token Prediction (MTP): predicts several future tokens per forward pass to accelerate long-form generation.
  • Tool calling: supports multi-turn tool invocation for agent-style workflows.
  • Prompt caching: use the x-session-affinity header with a unique session ID to route requests to the same model instance and reduce latency/costs.

Usage

  • Workers AI binding: call via env.AI.run() from your Worker.
  • REST API: call /run or /v1/chat/completions.
  • OpenAI-compatible endpoint also supported; see the Nemotron 3 Super model page for details.
  • For optimal multi-turn performance, include the x-session-affinity header to enable prompt caching and session affinity.

Practical Recommendations

  • For agent systems, use MTP + tool-calling to batch long-generation work and reduce overall latency.
  • Enable prompt caching for multi-turn flows to lower inference cost and response times.
  • Monitor instance affinity and adjust session IDs to balance cache locality vs. horizontal scalability.

Links

  • Refer to the Nemotron 3 Super model page and Workers AI documentation for API details, quotas, and example integrations.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

Workers AI — NVIDIA Nemotron 3 Super が Workers AI で利用可能に

NVIDIA Nemotron 3 Super が Workers AI で利用可能に

公開日: 2026-03-11 · カテゴリ: Workers AI

Cloudflare は NVIDIA と協業し、@cf/nvidia/nemotron-3-120b-a12b を Workers AI に導入しました。NVIDIA Nemotron 3 Super は Mixture-of-Experts (MoE) モデルで、ハイブリッド Mamba-transformer アーキテクチャ、合計 120B のパラメータ、1 回のフォワードパスあたり 12B のアクティブパラメータを備えています。多数の協調エージェントをアプリケーション単位で実行する用途に最適化されており、複雑なマルチステップタスクにおける推論、ツール呼び出し、命令従順性で高い精度を発揮します。

主な機能

  • ハイブリッド Mamba-transformer アーキテクチャにより、主要なオープンモデルと比べてトークン生成スループットが50%超向上し、実運用アプリケーションのレイテンシを低減します。
  • ツールコーリングのサポートにより、複数ターンにまたがってツールを呼び出す AI エージェントを構築できます。
  • Multi-Token Prediction (MTP) により、単一のフォワードパスで複数の将来トークンを同時に予測し、長文生成を高速化します。
  • 32,000 トークンのコンテキストウィンドウで、マルチステップのエージェントワークフローにおける会話履歴やプラン状態を保持できます。

プロンプトキャッシュ

マルチターン会話で最適な性能を得るには、x-session-affinity ヘッダーに一意のセッション識別子を設定してプロンプトキャッシュを有効にしてください。これによりリクエストが同じモデルインスタンスにルーティングされ、レイテンシと推論コストが削減されます。詳細は Prompt caching を参照してください。

利用方法

Nemotron 3 Super は以下の方法で利用できます。

  • Workers AI バインディング: env.AI.run() を使用
  • REST API: /run または /v1/chat/completions
  • OpenAI 互換エンドポイント

詳細は Nemotron 3 Super model page を参照してください。

モデル識別子: @cf/nvidia/nemotron-3-120b-a12b