OpenAICloudflare Developer Platform2026/03/11 0:00

Workers AI - NVIDIA Nemotron 3 Super now available on Workers AI

要点だけを先に読めるように短く再構成したセクションです。

元記事

OpenAI Claude

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

Workers AIでNVIDIA Nemotron 3 Superが利用可能に

nvidia nemotron moe mamba-transformer 32k-context prompt-caching workers-ai

Key Points

120B総パラメータ（12Bアクティブ）
32,000トークンコンテキスト
x-session-affinityでプロンプトキャッシュ

Summary

NVIDIA Nemotron 3 SuperがWorkers AIで利用可能になりました。ハイブリッドなMamba-transformerアーキテクチャを採用したMixture-of-Experts（MoE）モデルで、総パラメータ120B、1回のフォワードでアクティブになるパラメータは12Bです。複数エージェントの協調、ツール呼び出し、長文生成・推論タスクに最適化されています。

Key Points

パフォーマンス: ハイブリッドMamba-transformerにより代表的なオープンモデル比でトークン生成スループットが50%以上向上し、レイテンシを低減。
モデル仕様: MoE（120B総パラメータ、12Bアクティブ）、Multi-Token Prediction（MTP）で長文生成を高速化、32,000トークンのコンテキストウィンドウ。
機能: ツールコール対応により複数ターンにわたるエージェントワークフローを構築可能。
プロンプトキャッシュ: マルチターン会話での最適化にはリクエストにユニークなセッションIDを入れた x-session-affinity ヘッダーを設定して同一モデルインスタンスにルーティングすると、レイテンシと推論コストを削減。
利用方法: Workers AIバインディング（env.AI.run()）、REST API（/run または /v1/chat/completions）、またはOpenAI互換エンドポイントで呼び出し可能。

Actionable Guidance

マルチターン会話やエージェントワークフローでは必ず x-session-affinity にセッションIDを付与してプロンプトキャッシュを有効にする。
長文や複雑なツール連携にはMTPと32kコンテキストを活用し、バッチ設計やツークール（tool）呼び出しのタイミングを最適化する。

参照

詳細はNemotron 3 SuperのモデルページとWorkers AIドキュメントを確認してください。

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

Workers AI — NVIDIA Nemotron 3 Super が Workers AI で利用可能に

NVIDIA Nemotron 3 Super が Workers AI で利用可能に

公開日: 2026-03-11 · カテゴリ: Workers AI

Cloudflare は NVIDIA と協業し、@cf/nvidia/nemotron-3-120b-a12b を Workers AI に導入しました。NVIDIA Nemotron 3 Super は Mixture-of-Experts (MoE) モデルで、ハイブリッド Mamba-transformer アーキテクチャ、合計 120B のパラメータ、1 回のフォワードパスあたり 12B のアクティブパラメータを備えています。多数の協調エージェントをアプリケーション単位で実行する用途に最適化されており、複雑なマルチステップタスクにおける推論、ツール呼び出し、命令従順性で高い精度を発揮します。

主な機能

ハイブリッド Mamba-transformer アーキテクチャにより、主要なオープンモデルと比べてトークン生成スループットが50%超向上し、実運用アプリケーションのレイテンシを低減します。
ツールコーリングのサポートにより、複数ターンにまたがってツールを呼び出す AI エージェントを構築できます。
Multi-Token Prediction (MTP) により、単一のフォワードパスで複数の将来トークンを同時に予測し、長文生成を高速化します。
32,000 トークンのコンテキストウィンドウで、マルチステップのエージェントワークフローにおける会話履歴やプラン状態を保持できます。

プロンプトキャッシュ

マルチターン会話で最適な性能を得るには、x-session-affinity ヘッダーに一意のセッション識別子を設定してプロンプトキャッシュを有効にしてください。これによりリクエストが同じモデルインスタンスにルーティングされ、レイテンシと推論コストが削減されます。詳細は Prompt caching を参照してください。

利用方法

Nemotron 3 Super は以下の方法で利用できます。

Workers AI バインディング: env.AI.run() を使用
REST API: /run または /v1/chat/completions
OpenAI 互換エンドポイント

詳細は Nemotron 3 Super model page を参照してください。

モデル識別子: @cf/nvidia/nemotron-3-120b-a12b