Moonshot AI Kimi K2.5がWorkers AIで利用可能になりました

2026年3月19日

Workers AIが正式に大規模モデルの分野に参入しました。@cf/moonshotai/kimi-k2.5は、当社のAI推論プラットフォーム上で提供される初のフロンティア規模のオープンソースモデルです。このモデルは、完全な256kコンテキストウィンドウ、マルチターンツール呼び出し、ビジョン入力、構造化出力を備えた大規模モデルです。

フロンティア規模のモデルをCloudflare Developer Platformに直接導入することで、単一の統合プラットフォーム上でエージェントのライフサイクル全体を実行できるようになりました。このモデルは、品質を犠牲にすることなく、より大きなプロプライエタリモデルに対する高速で効率的な代替手段であることが証明されています。AI採用が増加するにつれて、推論の量が急激に増加していますが、今やフロンティアインテリジェンスをコストの一部で利用できます。

主要機能

256,000トークンのコンテキストウィンドウ - 長時間実行されるエージェントセッション全体で、完全な会話履歴、ツール定義、コードベース全体を保持
マルチターンツール呼び出し - 複数の会話ターンにわたってツールを呼び出すエージェントの構築
ビジョン入力 - テキストと並行して画像を処理
構造化出力 - 信頼性の高い下流解析のためのJSONモードとJSON Schemaサポート
関数呼び出し - 外部ツールとAPIをエージェントワークフローに統合

プレフィックスキャッシュとセッションアフィニティ

エージェントが新しいプロンプトを送信する際、セッションからの以前のすべてのプロンプト、ツール、コンテキストを再送信します。連続するリクエスト間の差分は通常、わずか数行の新しい入力のみです。プレフィックスキャッシュは共有コンテキストの再処理を回避し、プリフィル段階での時間と計算を節約します。これにより、より高速なTime to First Token（TTFT）とより高いTokens Per Second（TPS）スループットが実現されます。

Workers AIはプレフィックスキャッシュを実装していましたが、現在はキャッシュされたトークンを使用量メトリックとして表示し、入力トークンと比較してキャッシュされたトークンに割引を提供しています（価格設定はモデルページに記載）。

curl -X POST \
  "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai/run/@cf/moonshotai/kimi-k2.5" \
  -H "Authorization: Bearer {api_token}" \
  -H "Content-Type: application/json" \
  -H "x-session-affinity: ses_12345678" \
  -d '{
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "What is prefix caching and why does it matter?"
      }
    ],
    "max_tokens": 2400,
    "stream": true
  }'

OpenCodeなどの一部のクライアントは、セッションアフィニティを自動的に実装します。Agents SDKスターターも配線を設定します。

再設計された非同期API

同期レート制限を超える大量のリクエストに対して、非同期で完了される推論のバッチを送信できます。容量が利用可能になり次第、キューに入れられたリクエストを処理するプルベースシステムで非同期バッチAPIを刷新しました。

内部テストでは、非同期リクエストは通常5分以内に実行されますが、これはライブトラフィックに依存します。非同期APIは、耐久性のあるワークフローで容量エラーを回避する最良の方法です。コードスキャンエージェントや研究エージェントなど、リアルタイムではないユースケースに最適です。

非同期APIを使用するには、queueRequest: trueを渡します：

// 1. リクエストのバッチをキューにプッシュ
const res = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
  requests: [
    {
      messages: [
        { role: "user", content: "Tell me a joke" }
      ],
    },
    {
      messages: [
        { role: "user", content: "Explain the Pythagoras theorem" }
      ],
    },
  ],
}, { queueRequest: true });

// 2. リクエストIDを取得
const requestId = res.request_id;

// 3. 結果をポーリング
const result = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
  request_id: requestId,
});

if (result.status === "queued" || result.status === "running") {
  // 再度ポーリングして再試行
} else {
  return Response.json(result);
}

ポーリングの代わりに、推論が完了したときに通知するイベント通知を設定することもできます。

開始方法

Kimi K2.5は、Workers AIバインディング（env.AI.run()）、/runまたは/v1/chat/completionsのREST API、AI Gateway、またはOpenAI互換エンドポイント経由で使用できます。

詳細については、Kimi K2.5モデルページ、価格設定、プロンプトキャッシュを参照してください。

Workers AI - Moonshot AI Kimi K2.5 now available on Workers AI

Summary

Summary

Key Features

Performance Optimizations

New Asynchronous API

Translations

Moonshot AI Kimi K2.5がWorkers AIで利用可能になりました

主要機能

プレフィックスキャッシュとセッションアフィニティ

再設計された非同期API

開始方法