ClaudeCloudflare Developer Platform2026/03/11 0:00

Workers AI - NVIDIA Nemotron 3 Super now available on Workers AI

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

claudejamodel: claude-sonnet-4-20250514

Workers AI に NVIDIA Nemotron 3 Super が追加

Key Points

  • NVIDIA Nemotron 3 Super が Workers AI で利用開始
  • 従来モデル比50%以上のトークン生成スループット向上
  • AIエージェント協調動作に最適化されたMoEアーキテクチャ

Summary

Cloudflare が NVIDIA と提携し、Workers AI プラットフォームに NVIDIA Nemotron 3 Super モデル(@cf/nvidia/nemotron-3-120b-a12b)を追加しました。このモデルは Mixture-of-Experts (MoE) アーキテクチャを採用し、AIエージェントの協調動作に最適化されています。

Key Points

  • アーキテクチャ: ハイブリッド Mamba-transformer 構造で、従来のオープンモデルと比較して50%以上高いトークン生成スループットを実現
  • パラメータ: 総パラメータ数120B、フォワードパス毎のアクティブパラメータ数12B
  • 主要機能:
    • ツール呼び出しサポートによるマルチターン会話でのAIエージェント構築
    • Multi-Token Prediction (MTP) による長文生成の高速化
    • 32,000トークンのコンテキストウィンドウ
  • 最適化: マルチターン会話では x-session-affinity ヘッダーでプロンプトキャッシュを有効化
  • アクセス方法: Workers AI バインディング、REST API、OpenAI互換エンドポイントで利用可能

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

claudejamodel: claude-sonnet-4-20250514

Workers AI - NVIDIA Nemotron 3 SuperがWorkers AIで利用可能になりました

NVIDIA Nemotron 3 SuperがWorkers AIで利用可能になりました

2026年3月11日

NVIDIAとのパートナーシップにより、@cf/nvidia/nemotron-3-120b-a12bをWorkers AIに導入できることを嬉しく思います。

NVIDIA Nemotron 3 Superは、ハイブリッドMamba-transformerアーキテクチャを採用したMixture-of-Experts(MoE)モデルで、総パラメータ数120B、フォワードパスあたりのアクティブパラメータ数12Bを持ちます。このモデルは、アプリケーションごとに多数の協調エージェントを実行するために最適化されています。複雑な多段階タスクにおいて、推論、ツール呼び出し、指示実行において高い精度を提供します。

主要機能

  • ハイブリッドMamba-transformerアーキテクチャ:主要なオープンモデルと比較して50%以上高いトークン生成スループットを実現し、実世界のアプリケーションでのレイテンシを削減
  • ツール呼び出しサポート:複数の会話ターンにわたってツールを呼び出すAIエージェントの構築が可能
  • Multi-Token Prediction(MTP):単一のフォワードパスで複数の将来のトークンを同時に予測することで、長文テキスト生成を高速化
  • 32,000トークンのコンテキストウィンドウ:多段階エージェントワークフローにわたって会話履歴と計画状態を保持
  • プロンプトキャッシュ

プロンプトキャッシュ

多ターン会話での最適なパフォーマンスを得るには、一意のセッション識別子を持つx-session-affinityヘッダーを送信してプロンプトキャッシュを有効にしてください。これにより、リクエストが同じモデルインスタンスにルーティングされ、レイテンシと推論コストが削減されます。詳細については、プロンプトキャッシュを参照してください。

使用方法

Nemotron 3 Superは以下の方法で使用できます:

  • Workers AIバインディング(env.AI.run()
  • REST API(/runまたは/v1/chat/completions
  • OpenAI互換エンドポイント

詳細については、Nemotron 3 Superモデルページを参照してください。