Workers AI — Moonshot AI Kimi K2.5 が Workers AI で利用可能に
Key Points
- 256k コンテキスト対応
- マルチターンツール呼び出し
- 非同期バッチAPI(プル)
Summary
Moonshot AI の Kimi K2.5 が Workers AI プラットフォームで利用可能になりました。フロンティア規模のオープンソースモデルで、256k トークンのコンテキストウィンドウ、マルチターンのツール呼び出し、画像入力、JSON/JSON Schema による構造化出力、関数呼び出しをサポートします。プレフィックスキャッシュとセッションアフィニティにより TTFT と TPS が向上し、キャッシュされたトークンはメトリクス化および割引の対象です。
Key Points
- 256,000 トークンのコンテキストウィンドウで長時間セッションや大きなコードベースを保持可能
- マルチターンツール呼び出し、関数呼び出し、視覚入力(画像)対応、JSON/JSON Schema による安定した構造化出力
- プレフィックスキャッシュで共通コンテキストの再処理を削減(キャッシュ使用量はメトリクス/割引対象)
- セッションアフィニティを使って同一セッションを維持(例:
x-session-affinity: ses_12345678) - 非同期バッチAPI(プル型):
queueRequest: trueでキューに投入、通常は数分内に処理—耐久ワークフローやコードスキャンに最適 - 利用方法: Workers AI バインディング(
env.AI.run())、REST/runor/v1/chat/completions、AI Gateway、OpenAI 互換エンドポイント
Quick usage notes
- 短い curl 例(セッションアフィニティの指定):
curl -X POST "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai/run/@cf/moonshotai/kimi-k2.5" \
-H "Authorization: Bearer {api_token}" \
-H "Content-Type: application/json" \
-H "x-session-affinity: ses_12345678" \
-d '{"messages":[{"role":"user","content":"What is prefix caching and why does it matter?"}],"max_tokens":2400,"stream":true}'
Action items for engineers
- モデルページで価格とプレフィックスキャッシュ割引を確認する
- 長期エージェントや高スループット環境ではセッションアフィニティと非同期バッチAPIを検討する
- JSON Schema 出力を使って下流パイプラインのパースを安定化する