ClaudeCloudflare Developer PlatformMar 11, 2026, 12:00 AM

Workers AI - NVIDIA Nemotron 3 Super now available on Workers AI

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-sonnet-4-20250514

NVIDIA Nemotron 3 Super Model Now Available on Cloudflare Workers AI

Key Points

  • 50% higher token generation throughput with hybrid Mamba-transformer architecture
  • Multi-Token Prediction accelerates long-form text generation
  • 32K token context window with prompt caching support

Summary

Cloudflare has partnered with NVIDIA to bring the Nemotron 3 Super model (@cf/nvidia/nemotron-3-120b-a12b) to Workers AI. This Mixture-of-Experts (MoE) model features a hybrid Mamba-transformer architecture with 120B total parameters and 12B active parameters per forward pass, optimized for multi-agent applications.

Key Features

  • Hybrid Architecture: Mamba-transformer design delivers 50%+ higher token generation throughput compared to leading open models
  • Tool Calling: Native support for building AI agents that can invoke tools across multiple conversation turns
  • Multi-Token Prediction (MTP): Accelerates long-form text generation by predicting multiple future tokens simultaneously
  • Large Context Window: 32,000 token context for maintaining conversation history and agent state
  • Prompt Caching: Use x-session-affinity header with unique session ID for reduced latency and costs

Access Methods

  • Workers AI binding (env.AI.run())
  • REST API endpoints (/run or /v1/chat/completions)
  • OpenAI-compatible endpoint

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-sonnet-4-20250514

Workers AI - NVIDIA Nemotron 3 SuperがWorkers AIで利用可能になりました

NVIDIA Nemotron 3 SuperがWorkers AIで利用可能になりました

2026年3月11日

NVIDIAとのパートナーシップにより、@cf/nvidia/nemotron-3-120b-a12bをWorkers AIに導入できることを嬉しく思います。

NVIDIA Nemotron 3 Superは、ハイブリッドMamba-transformerアーキテクチャを採用したMixture-of-Experts(MoE)モデルで、総パラメータ数120B、フォワードパスあたりのアクティブパラメータ数12Bを持ちます。このモデルは、アプリケーションごとに多数の協調エージェントを実行するために最適化されています。複雑な多段階タスクにおいて、推論、ツール呼び出し、指示実行において高い精度を提供します。

主要機能

  • ハイブリッドMamba-transformerアーキテクチャ:主要なオープンモデルと比較して50%以上高いトークン生成スループットを実現し、実世界のアプリケーションでのレイテンシを削減
  • ツール呼び出しサポート:複数の会話ターンにわたってツールを呼び出すAIエージェントの構築が可能
  • Multi-Token Prediction(MTP):単一のフォワードパスで複数の将来のトークンを同時に予測することで、長文テキスト生成を高速化
  • 32,000トークンのコンテキストウィンドウ:多段階エージェントワークフローにわたって会話履歴と計画状態を保持
  • プロンプトキャッシュ

プロンプトキャッシュ

多ターン会話での最適なパフォーマンスを得るには、一意のセッション識別子を持つx-session-affinityヘッダーを送信してプロンプトキャッシュを有効にしてください。これにより、リクエストが同じモデルインスタンスにルーティングされ、レイテンシと推論コストが削減されます。詳細については、プロンプトキャッシュを参照してください。

使用方法

Nemotron 3 Superは以下の方法で使用できます:

  • Workers AIバインディング(env.AI.run()
  • REST API(/runまたは/v1/chat/completions
  • OpenAI互換エンドポイント

詳細については、Nemotron 3 Superモデルページを参照してください。

Workers AI - NVIDIA Nemotron 3 Super now available on Workers AI | Cloudflare Developer Platform | DocsDigest