ClaudeCloudflare Developer PlatformMar 19, 2026, 12:00 AM

Workers AI - Moonshot AI Kimi K2.5 now available on Workers AI

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-sonnet-4-20250514

Moonshot AI Kimi K2.5 Model Now Available on Cloudflare Workers AI

Key Points

  • First frontier-scale open-source model on Workers AI platform
  • 256k context window with multi-turn tool calling and vision support
  • New asynchronous batch API with pull-based processing system

Summary

Cloudflare Workers AI now supports Moonshot AI's Kimi K2.5 (@cf/moonshotai/kimi-k2.5), marking the first frontier-scale open-source model on their AI inference platform. This large language model offers enterprise-grade capabilities including a 256k context window, multi-turn tool calling, vision inputs, and structured outputs.

Key Features

  • 256,000 token context window - Retains full conversation history, tool definitions, and entire codebases
  • Multi-turn tool calling - Enables complex agent workflows across conversation turns
  • Vision inputs - Processes images alongside text
  • Structured outputs - JSON mode and JSON Schema support for reliable parsing
  • Function calling - Integration with external tools and APIs

Performance Optimizations

  • Prefix caching - Avoids reprocessing shared context, improving Time to First Token (TTFT) and Tokens Per Second (TPS)
  • Session affinity - Maintains context across requests using x-session-affinity header
  • Discounted pricing for cached tokens compared to input tokens

New Asynchronous API

  • Redesigned pull-based batch processing system
  • Handles high-volume requests that exceed synchronous rate limits
  • Typical execution within 5 minutes during internal testing
  • Ideal for non-real-time use cases like code scanning or research agents
  • Use queueRequest: true parameter to queue batch requests

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-sonnet-4-20250514

Workers AI - Moonshot AI Kimi K2.5がWorkers AIで利用可能になりました

Moonshot AI Kimi K2.5がWorkers AIで利用可能になりました

2026年3月19日

Workers AIが正式に大規模モデルの分野に参入しました。@cf/moonshotai/kimi-k2.5は、当社のAI推論プラットフォーム上で提供される初のフロンティア規模のオープンソースモデルです。このモデルは、完全な256kコンテキストウィンドウ、マルチターンツール呼び出し、ビジョン入力、構造化出力を備えた大規模モデルです。

フロンティア規模のモデルをCloudflare Developer Platformに直接導入することで、単一の統合プラットフォーム上でエージェントのライフサイクル全体を実行できるようになりました。このモデルは、品質を犠牲にすることなく、より大きなプロプライエタリモデルに対する高速で効率的な代替手段であることが証明されています。AI採用が増加するにつれて、推論の量が急激に増加していますが、今やフロンティアインテリジェンスをコストの一部で利用できます。

主要機能

  • 256,000トークンのコンテキストウィンドウ - 長時間実行されるエージェントセッション全体で、完全な会話履歴、ツール定義、コードベース全体を保持
  • マルチターンツール呼び出し - 複数の会話ターンにわたってツールを呼び出すエージェントの構築
  • ビジョン入力 - テキストと並行して画像を処理
  • 構造化出力 - 信頼性の高い下流解析のためのJSONモードとJSON Schemaサポート
  • 関数呼び出し - 外部ツールとAPIをエージェントワークフローに統合

プレフィックスキャッシュとセッションアフィニティ

エージェントが新しいプロンプトを送信する際、セッションからの以前のすべてのプロンプト、ツール、コンテキストを再送信します。連続するリクエスト間の差分は通常、わずか数行の新しい入力のみです。プレフィックスキャッシュは共有コンテキストの再処理を回避し、プリフィル段階での時間と計算を節約します。これにより、より高速なTime to First Token(TTFT)とより高いTokens Per Second(TPS)スループットが実現されます。

Workers AIはプレフィックスキャッシュを実装していましたが、現在はキャッシュされたトークンを使用量メトリックとして表示し、入力トークンと比較してキャッシュされたトークンに割引を提供しています(価格設定はモデルページに記載)。

curl -X POST \
  "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai/run/@cf/moonshotai/kimi-k2.5" \
  -H "Authorization: Bearer {api_token}" \
  -H "Content-Type: application/json" \
  -H "x-session-affinity: ses_12345678" \
  -d '{
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "What is prefix caching and why does it matter?"
      }
    ],
    "max_tokens": 2400,
    "stream": true
  }'

OpenCodeなどの一部のクライアントは、セッションアフィニティを自動的に実装します。Agents SDKスターターも配線を設定します。

再設計された非同期API

同期レート制限を超える大量のリクエストに対して、非同期で完了される推論のバッチを送信できます。容量が利用可能になり次第、キューに入れられたリクエストを処理するプルベースシステムで非同期バッチAPIを刷新しました。

内部テストでは、非同期リクエストは通常5分以内に実行されますが、これはライブトラフィックに依存します。非同期APIは、耐久性のあるワークフローで容量エラーを回避する最良の方法です。コードスキャンエージェントや研究エージェントなど、リアルタイムではないユースケースに最適です。

非同期APIを使用するには、queueRequest: trueを渡します:

// 1. リクエストのバッチをキューにプッシュ
const res = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
  requests: [
    {
      messages: [
        { role: "user", content: "Tell me a joke" }
      ],
    },
    {
      messages: [
        { role: "user", content: "Explain the Pythagoras theorem" }
      ],
    },
  ],
}, { queueRequest: true });

// 2. リクエストIDを取得
const requestId = res.request_id;

// 3. 結果をポーリング
const result = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
  request_id: requestId,
});

if (result.status === "queued" || result.status === "running") {
  // 再度ポーリングして再試行
} else {
  return Response.json(result);
}

ポーリングの代わりに、推論が完了したときに通知するイベント通知を設定することもできます。

開始方法

Kimi K2.5は、Workers AIバインディング(env.AI.run())、/runまたは/v1/chat/completionsのREST API、AI Gateway、またはOpenAI互換エンドポイント経由で使用できます。

詳細については、Kimi K2.5モデルページ、価格設定、プロンプトキャッシュを参照してください。