ClaudeCloudflare Developer Platform2026/03/19 0:00

Workers AI - Moonshot AI Kimi K2.5 now available on Workers AI

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

claudejamodel: claude-sonnet-4-20250514

Workers AI に Moonshot AI Kimi K2.5 モデルが追加

Key Points

  • 256k コンテキストウィンドウ対応の大規模モデル
  • プレフィックスキャッシュによる高速化
  • 新しい非同期バッチ API の提供

Summary

Cloudflare Workers AI に初のフロンティア規模オープンソースモデル「@cf/moonshotai/kimi-k2.5」が追加されました。256k コンテキストウィンドウ、マルチターンツール呼び出し、画像入力、構造化出力をサポートし、エージェント開発を単一プラットフォームで完結できます。

Key Points

  • 大規模コンテキスト: 256,000 トークンのコンテキストウィンドウで長時間のエージェントセッションに対応
  • マルチモーダル機能: テキストと画像の同時処理、JSON スキーマによる構造化出力
  • パフォーマンス最適化: プレフィックスキャッシュとセッションアフィニティによる高速化
  • 非同期 API: バッチ処理用の新しいプルベース非同期 API を提供
  • 互換性: OpenAI 互換エンドポイント、AI Gateway 経由でのアクセスが可能

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

claudejamodel: claude-sonnet-4-20250514

Workers AI - Moonshot AI Kimi K2.5がWorkers AIで利用可能になりました

Moonshot AI Kimi K2.5がWorkers AIで利用可能になりました

2026年3月19日

Workers AIが正式に大規模モデルの分野に参入しました。@cf/moonshotai/kimi-k2.5は、当社のAI推論プラットフォーム上で提供される初のフロンティア規模のオープンソースモデルです。このモデルは、完全な256kコンテキストウィンドウ、マルチターンツール呼び出し、ビジョン入力、構造化出力を備えた大規模モデルです。

フロンティア規模のモデルをCloudflare Developer Platformに直接導入することで、単一の統合プラットフォーム上でエージェントのライフサイクル全体を実行できるようになりました。このモデルは、品質を犠牲にすることなく、より大きなプロプライエタリモデルに対する高速で効率的な代替手段であることが証明されています。AI採用が増加するにつれて、推論の量が急激に増加していますが、今やフロンティアインテリジェンスをコストの一部で利用できます。

主要機能

  • 256,000トークンのコンテキストウィンドウ - 長時間実行されるエージェントセッション全体で、完全な会話履歴、ツール定義、コードベース全体を保持
  • マルチターンツール呼び出し - 複数の会話ターンにわたってツールを呼び出すエージェントの構築
  • ビジョン入力 - テキストと並行して画像を処理
  • 構造化出力 - 信頼性の高い下流解析のためのJSONモードとJSON Schemaサポート
  • 関数呼び出し - 外部ツールとAPIをエージェントワークフローに統合

プレフィックスキャッシュとセッションアフィニティ

エージェントが新しいプロンプトを送信する際、セッションからの以前のすべてのプロンプト、ツール、コンテキストを再送信します。連続するリクエスト間の差分は通常、わずか数行の新しい入力のみです。プレフィックスキャッシュは共有コンテキストの再処理を回避し、プリフィル段階での時間と計算を節約します。これにより、より高速なTime to First Token(TTFT)とより高いTokens Per Second(TPS)スループットが実現されます。

Workers AIはプレフィックスキャッシュを実装していましたが、現在はキャッシュされたトークンを使用量メトリックとして表示し、入力トークンと比較してキャッシュされたトークンに割引を提供しています(価格設定はモデルページに記載)。

curl -X POST \
  "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai/run/@cf/moonshotai/kimi-k2.5" \
  -H "Authorization: Bearer {api_token}" \
  -H "Content-Type: application/json" \
  -H "x-session-affinity: ses_12345678" \
  -d '{
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "What is prefix caching and why does it matter?"
      }
    ],
    "max_tokens": 2400,
    "stream": true
  }'

OpenCodeなどの一部のクライアントは、セッションアフィニティを自動的に実装します。Agents SDKスターターも配線を設定します。

再設計された非同期API

同期レート制限を超える大量のリクエストに対して、非同期で完了される推論のバッチを送信できます。容量が利用可能になり次第、キューに入れられたリクエストを処理するプルベースシステムで非同期バッチAPIを刷新しました。

内部テストでは、非同期リクエストは通常5分以内に実行されますが、これはライブトラフィックに依存します。非同期APIは、耐久性のあるワークフローで容量エラーを回避する最良の方法です。コードスキャンエージェントや研究エージェントなど、リアルタイムではないユースケースに最適です。

非同期APIを使用するには、queueRequest: trueを渡します:

// 1. リクエストのバッチをキューにプッシュ
const res = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
  requests: [
    {
      messages: [
        { role: "user", content: "Tell me a joke" }
      ],
    },
    {
      messages: [
        { role: "user", content: "Explain the Pythagoras theorem" }
      ],
    },
  ],
}, { queueRequest: true });

// 2. リクエストIDを取得
const requestId = res.request_id;

// 3. 結果をポーリング
const result = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
  request_id: requestId,
});

if (result.status === "queued" || result.status === "running") {
  // 再度ポーリングして再試行
} else {
  return Response.json(result);
}

ポーリングの代わりに、推論が完了したときに通知するイベント通知を設定することもできます。

開始方法

Kimi K2.5は、Workers AIバインディング(env.AI.run())、/runまたは/v1/chat/completionsのREST API、AI Gateway、またはOpenAI互換エンドポイント経由で使用できます。

詳細については、Kimi K2.5モデルページ、価格設定、プロンプトキャッシュを参照してください。