Workers AIでNVIDIA Nemotron 3 Superが利用可能に
Key Points
- 120B総パラメータ(12Bアクティブ)
- 32,000トークンコンテキスト
- x-session-affinityでプロンプトキャッシュ
Summary
NVIDIA Nemotron 3 SuperがWorkers AIで利用可能になりました。ハイブリッドなMamba-transformerアーキテクチャを採用したMixture-of-Experts(MoE)モデルで、総パラメータ120B、1回のフォワードでアクティブになるパラメータは12Bです。複数エージェントの協調、ツール呼び出し、長文生成・推論タスクに最適化されています。
Key Points
- パフォーマンス: ハイブリッドMamba-transformerにより代表的なオープンモデル比でトークン生成スループットが50%以上向上し、レイテンシを低減。
- モデル仕様: MoE(120B総パラメータ、12Bアクティブ)、Multi-Token Prediction(MTP)で長文生成を高速化、32,000トークンのコンテキストウィンドウ。
- 機能: ツールコール対応により複数ターンにわたるエージェントワークフローを構築可能。
- プロンプトキャッシュ: マルチターン会話での最適化にはリクエストにユニークなセッションIDを入れた
x-session-affinityヘッダーを設定して同一モデルインスタンスにルーティングすると、レイテンシと推論コストを削減。 - 利用方法: Workers AIバインディング(env.AI.run())、REST API(/run または /v1/chat/completions)、またはOpenAI互換エンドポイントで呼び出し可能。
Actionable Guidance
- マルチターン会話やエージェントワークフローでは必ず
x-session-affinityにセッションIDを付与してプロンプトキャッシュを有効にする。 - 長文や複雑なツール連携にはMTPと32kコンテキストを活用し、バッチ設計やツークール(tool)呼び出しのタイミングを最適化する。
参照
詳細はNemotron 3 SuperのモデルページとWorkers AIドキュメントを確認してください。