OpenAICloudflare Developer Platform2026/03/19 0:00

Workers AI - Moonshot AI Kimi K2.5 now available on Workers AI

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

Workers AI — Moonshot AI Kimi K2.5 が Workers AI で利用可能に

Key Points

  • 256k コンテキスト対応
  • マルチターンツール呼び出し
  • 非同期バッチAPI(プル)

Summary

Moonshot AI の Kimi K2.5 が Workers AI プラットフォームで利用可能になりました。フロンティア規模のオープンソースモデルで、256k トークンのコンテキストウィンドウ、マルチターンのツール呼び出し、画像入力、JSON/JSON Schema による構造化出力、関数呼び出しをサポートします。プレフィックスキャッシュとセッションアフィニティにより TTFT と TPS が向上し、キャッシュされたトークンはメトリクス化および割引の対象です。

Key Points

  • 256,000 トークンのコンテキストウィンドウで長時間セッションや大きなコードベースを保持可能
  • マルチターンツール呼び出し、関数呼び出し、視覚入力(画像)対応、JSON/JSON Schema による安定した構造化出力
  • プレフィックスキャッシュで共通コンテキストの再処理を削減(キャッシュ使用量はメトリクス/割引対象)
  • セッションアフィニティを使って同一セッションを維持(例: x-session-affinity: ses_12345678
  • 非同期バッチAPI(プル型): queueRequest: true でキューに投入、通常は数分内に処理—耐久ワークフローやコードスキャンに最適
  • 利用方法: Workers AI バインディング(env.AI.run())、REST /run or /v1/chat/completions、AI Gateway、OpenAI 互換エンドポイント

Quick usage notes

  • 短い curl 例(セッションアフィニティの指定):
curl -X POST "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai/run/@cf/moonshotai/kimi-k2.5" \
  -H "Authorization: Bearer {api_token}" \
  -H "Content-Type: application/json" \
  -H "x-session-affinity: ses_12345678" \
  -d '{"messages":[{"role":"user","content":"What is prefix caching and why does it matter?"}],"max_tokens":2400,"stream":true}'

Action items for engineers

  • モデルページで価格とプレフィックスキャッシュ割引を確認する
  • 長期エージェントや高スループット環境ではセッションアフィニティと非同期バッチAPIを検討する
  • JSON Schema 出力を使って下流パイプラインのパースを安定化する

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

Workers AI - Moonshot AI Kimi K2.5 が Workers AI で利用可能になりました

Moonshot AI Kimi K2.5 が Workers AI で利用可能に

Workers AI は公式に大規模モデルの領域に参入しました。@cf/moonshotai/kimi-k2.5 は我々の AI 推論プラットフォーム上で動作する最初のフロンティアスケールなオープンソースモデルです — 256k の完全なコンテキストウィンドウ、マルチターンのツール呼び出し、ビジョン入力、構造化出力を備えた大規模モデルです。フロンティアスケールのモデルを Cloudflare Developer Platform に直接搭載することで、単一の統合プラットフォーム上でエージェントのライフサイクル全体を実行できます。品質を損なうことなく、より大きな独自モデルに対する高速で効率的な代替として実証されています。AI の採用が進むにつれて推論量は急増しており、フロンティアインテリジェンスをより低コストで利用できるようになりました。

主な機能

  • 256,000 token context window で、長時間実行されるエージェントセッション中に会話履歴、ツール定義、コードベース全体を保持
  • マルチターンのツール呼び出しにより、複数の会話ターンにわたってツールを呼び出すエージェントを構築可能
  • ビジョン入力を使ってテキストと並列して画像を処理
  • JSON モードと JSON Schema サポートを備えた構造化出力で下流の解析を信頼性高く実行
  • Function calling により外部ツールや API をエージェントワークフローに統合
  • Prefix caching と session affinity

Prefix caching と session affinity

エージェントが新しいプロンプトを送るとき、セッション内の以前のすべてのプロンプト、ツール、コンテキストが再送信されます。連続するリクエスト間の差分は通常数行程度の新しい入力だけです。Prefix caching は共有コンテキストの再処理を避け、prefill ステージから時間と計算を節約します。これにより Time to First Token (TTFT) の短縮と Tokens Per Second (TPS) のスループット向上が得られます。Workers AI は以前から prefix caching を行ってきましたが、今回キャッシュ済みトークンを使用量メトリクスとして公開し、入力トークンに比べてキャッシュトークンに割引を提供します(価格はモデルページに記載)。

端末の例

curl -X POST \ 
 "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai/run/@cf/moonshotai/kimi-k2.5" \ 
 -H "Authorization: Bearer {api_token}" \ 
 -H "Content-Type: application/json" \ 
 -H "x-session-affinity: ses_12345678" \ 
 -d '{ "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "What is prefix caching and why does it matter?" } ], "max_tokens": 2400, "stream": true }'

一部のクライアント(OpenCode ↗ など)は session affinity を自動で実装します。Agents SDK ↗ のスターターも配線を設定します。

非同期 API の再設計

同期レート制限を超える量のリクエストに対しては、推論のバッチを非同期で完了するように送信できます。Asynchronous Batch API をプルベースのシステムに改良し、キャパシティが利用可能になり次第キューに入ったリクエストを処理します。社内テストでは、非同期リクエストは通常 5 分以内に実行されますが、これはライブトラフィックに依存します。非同期 API は、耐久的なワークフローでキャパシティエラーを回避する最良の方法です。リアルタイムではないユースケース(コードスキャンエージェントやリサーチエージェントなど)に適しています。

非同期 API を使うには、queueRequest: true を渡します:

// 1. Push a batch of requests into the queue
const res = await env.AI.run(
  "@cf/moonshotai/kimi-k2.5",
  {
    requests: [
      {
        messages: [
          { role: "user", content: "Tell me a joke" },
        ],
      },
      {
        messages: [
          { role: "user", content: "Explain the Pythagoras theorem" },
        ],
      },
    ],
  },
  { queueRequest: true },
);

// 2. Grab the request ID
const requestId = res.request_id;

// 3. Poll for the result
const result = await env.AI.run("@cf/moonshotai/kimi-k2.5", { request_id: requestId });

if (result.status === "queued" || result.status === "running") {
  // Retry by polling again
} else {
  return Response.json(result);
}

イベント通知を設定して、ポーリングの代わりに推論完了を受け取ることもできます。

利用開始

Kimi K2.5 は Workers AI バインディング(env.AI.run())、REST API の /run または /v1/chat/completions、AI Gateway、または OpenAI 互換エンドポイント経由で利用できます。詳細は Kimi K2.5 モデルページ、pricing、prompt caching を参照してください。