OpenAICloudflareApr 16, 2026, 2:05 PM

Cloudflare’s AI Platform: an inference layer designed for agents

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Cloudflare’s AI Platform: unified inference layer for agents

Key Points

  • One API for 70+ models across 12+ providers
  • Bring-your-own-model via Replicate Cog to Workers AI
  • Automatic failover, streaming buffering, and centralized spend tracking

Summary

Cloudflare launched a unified inference layer (AI Gateway + Workers AI) that lets engineers call any model from any provider through a single API. It focuses on low time-to-first-token, reliability for agent workflows, centralized cost tracking, and bring-your-own-model (BYOM) support via Replicate’s Cog containers.

Key Points

  • One API / simple switch: call third-party models with the same AI.run binding; REST API support coming soon. Example: env.AI.run('anthropic/claude-opus-4-6', { input: 'What is Cloudflare?' }, { gateway: { id: 'default' } }).
  • Large, growing catalog: access 70+ models across 12+ providers (OpenAI, Anthropic, Google, Replicate, Alibaba, and others); now expanding to image, video, and speech models for multimodal apps.
  • Centralized billing & observability: manage multi-provider AI spend in one place; attach metadata to requests to break down costs by team, user, or workflow.
  • BYOM via Replicate Cog: package models with cog.yaml and predict.py, run cog build, push container to Workers AI; Cloudflare will deploy and serve (enterprise dedicated instances and GPU snapshotting planned).
  • Low-latency, agent-first design: Cloudflare’s global edge minimizes network hop and improves time-to-first-token when code and inference run on the same network; Workers AI hosts agent-optimized models (e.g., Kimi K2.5).
  • Reliability & resiliency: automatic retries, cross-provider failover, buffered streaming with reconnect support so interrupted agents can resume without re-running or double-charging; Agents SDK adds checkpointing.

Practical actions for engineers

  • Swap providers in one line using env.AI.run to test latency/cost tradeoffs quickly.
  • Add metadata to requests to track spend by feature, team, or user.
  • For custom models, package with Cog (cog.yaml + predict.py), build and push to Workers AI to run on Cloudflare’s network.
  • Design agent flows assuming chained calls; rely on AI Gateway failover and streaming buffer to reduce cascading failures.

Getting started

Read the AI Gateway and Workers AI docs and consider applying to be a BYOM design partner if you need early support for custom deployments.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

CloudflareのAIプラットフォーム:エージェント向けに設計された推論レイヤー

CloudflareのAIプラットフォーム:エージェント向けに設計された推論レイヤー

2026-04-16 — Ming Lu, Michelle Chen — 読了時間: 約5分

AIモデルは急速に変化しています。今日エージェント型コーディングに最適なモデルが、3か月後には別のプロバイダの全く別のモデルになっていることも珍しくありません。さらに、実際のユースケースでは複数のモデルを呼び出す必要があることが多いです。たとえば、カスタマーサポートのエージェントは、ユーザーのメッセージを分類するために高速で安価なモデルを使い、行動計画には大規模で推論能力の高いモデルを使い、個別タスクの実行には軽量なモデルを使う、という具合です。

これにより、単一のプロバイダに財務的・運用的に縛られることなく、すべてのモデルにアクセスできる必要が出てきます。また、プロバイダ間のコストをモニタリングし、どこかで障害が発生しても信頼性を確保し、ユーザーがどこにいてもレイテンシーを管理するための適切なシステムが必要です。これらの課題はAIを使って構築する際に常に存在しますが、エージェントを構築する場合はさらに深刻になります。

単純なチャットボットはユーザープロンプトごとに1回の推論呼び出しを行うだけかもしれませんが、エージェントは1つのタスクを完了するために10回の呼び出しを連結することがあります。そうなると、遅いプロバイダが50msを追加するのではなく500msを追加することになり得ます。1回の失敗リクエストは単なるリトライでは済まず、下流の処理に連鎖する障害を引き起こすこともあります。

AI GatewayとWorkers AIのローンチ以来、Cloudflare上でAIを活用したアプリを開発する開発者から素晴らしい採用があり、私たちは追随するために素早く機能を出してきました。ここ数か月でダッシュボードの刷新、ゼロセットアップのデフォルトゲートウェイ追加、上流障害時の自動リトライ、より細かいログ制御などを実装しています。

本日、Cloudflareは統一された推論レイヤーになります:どのプロバイダのどのAIモデルにもアクセスできる1つのAPI、速く信頼できるように設計された仕組みです。

1つのカタログ、1つの統一エンドポイント

本日より、既にWorkers AIで使っているAI.run()バインディングを使ってサードパーティのモデルを呼び出せるようになりました。Workersを使用している場合、CloudflareホストのモデルからOpenAIやAnthropic、あるいは他のどのプロバイダのモデルに切り替えるのも1行の変更で済みます。

const response = await env.AI.run('anthropic/claude-opus-4-6',{ input: 'What is Cloudflare?', }, { gateway: { id: "default" }, });

Workersを使っていない方のために、数週間以内にREST APIサポートも公開予定です。これにより、どの環境からでもフルモデルカタログにアクセスできます。

今回、12以上のプロバイダから70以上のモデルにアクセスできるようになりました — すべて1つのAPI、切り替えは1行、支払いは1つのクレジットセットで済みます。今後も急速に拡充していきます。

モデルカタログを参照して、Cloudflare Workers AIでホストされるオープンソースモデルから主要プロバイダの独自モデルまで、ユースケースに最適なモデルを見つけてください。今回、以下のプロバイダのモデルをAI Gateway経由で提供できるように拡張しています:Alibaba Cloud、AssemblyAI、Bytedance、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway、Vidu。

なお、画像、ビデオ、音声モデルも拡充しており、マルチモーダルなアプリケーション構築が可能です。

1つのAPIで全モデルにアクセスできるということは、AIの支出を1か所で管理できるということでもあります。現在の多くの企業は複数プロバイダ間で平均3.5モデルを呼び出しており、単一プロバイダだけでは包括的な使用状況を把握できません。AI GatewayではAI支出を一元的に監視・管理できます。

リクエストにカスタムメタデータを含めることで、無料ユーザーと有料ユーザー別、個別顧客別、アプリ内ワークフロー別など、あなたが重要視する属性ごとのコスト内訳を得ることができます。

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5', { prompt: 'What is AI Gateway?' }, { metadata: { "teamId": "AI", "userId": 12345 } } );

Bring your own model(独自モデルの持ち込み)

AI Gatewayはすべてのプロバイダのモデルに1つのAPIでアクセスできるようにします。しかし、時には自社データでファインチューニングしたモデルや、特定ユースケースに最適化されたモデルを自分で動かしたい場合があります。そのために、ユーザーが自分のモデルをWorkers AIに持ち込める仕組みを準備中です。

エンタープライズ顧客向けの専用インスタンスで独自モデルを実行しているトラフィックが圧倒的に多く、これをより多くのお客様に提供したいと考えています。

このために、モデルをコンテナ化するのにReplicateのCog技術を活用しています。Cogはシンプルに設計されており、dependenciesをcog.yamlに書き、推論コードをPythonファイルに記述するだけです。CogはCUDA依存性、Pythonバージョン、重みのロードなど、MLモデルのパッケージングに関する難しい点を抽象化します。

cog.yamlの例:

build:
  python_version: "3.13"
  python_requirements: requirements.txt
predict: "predict.py:Predictor"

predict.pyの例(モデルをセットアップする関数と、推論リクエスト(prediction)を受けたときに実行される関数を持つ):

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
    def setup(self):
        """Load the model into memory to make running multiple predictions efficient"""
        self.net = torch.load("weights.pth")

    def predict(self, image: Path = Input(description="Image to enlarge"), scale: float = Input(description="Factor to scale image by", default=1.5) ) -> Path:
        """Run a single prediction on the model"""
        # ... pre-processing ...
        output = self.net(input)
        # ... post-processing ...
        return output

その後、cog build を実行してコンテナイメージをビルドし、CogコンテナをWorkers AIにプッシュします。Cloudflare側でモデルをデプロイしてサーブし、通常のWorkers AI API経由でアクセスできるようにします。

さらに、顧客向けAPIやwranglerコマンドで独自コンテナをプッシュできるようにすること、GPUスナップショットによるコールドスタートの高速化など、大きなプロジェクトに取り組んでいます。これらはCloudflare内部チームや一部外部顧客と共にテストしています。デザインパートナーに興味がある場合はぜひご連絡ください。

近いうちに、誰でも自分のモデルをパッケージしてWorkers AI経由で利用できるようになります。

ファーストトークンへの高速パス

Workers AIのモデルをAI Gateway経由で使うと、ライブエージェント構築時に特に効果を発揮します。ユーザーの“速さ”の知覚は、全体のレスポンス時間よりもむしろファーストトークンまでの時間(agentが最初に応答を開始する速さ)に依存することが多いからです。総推論時間が3秒でも、ファーストトークンが50ms速ければ、エージェントは機敏に感じられます。

Cloudflareは世界330都市にデータセンターを持つネットワークを有しており、AI Gatewayはユーザーと推論エンドポイントの両方に近い位置で動作するため、ストリーミング開始前のネットワーク時間を最小化します。

Workers AIは公開カタログでオープンソースモデルをホストしており、Kimi K2.5やリアルタイム音声モデルなど、エージェント向けに設計された大型モデルも含まれています。これらのCloudflareホストモデルをAI Gateway経由で呼び出す場合、コードと推論が同一のグローバルネットワーク上で動作するため、追加のパブリックInternet経路が発生せず、エージェントにとって最も低レイテンシになります。

自動フェイルオーバーで信頼性に配慮

エージェントを構築する際、ユーザーが気にするのは速度だけではありません。信頼性も重要です。エージェントのワークフローの各ステップは前段のステップに依存しており、推論の信頼性は非常に重要です。1回の呼び出しの失敗が下流全体に影響する可能性があります。

AI Gatewayでは、同じモデルが複数プロバイダで利用可能であり、あるプロバイダがダウンした場合でも、ユーザーがフェイルオーバーロジックを書かなくても自動的に別プロバイダへルーティングします。

長時間実行されるエージェント(Agents SDKを使う場合)では、ストリーミング推論呼び出しは切断に対しても復元力を持ちます。AI Gatewayはストリーミング応答を生成中にバッファリングし、エージェントのライフタイムとは独立して保持します。もしエージェントが推論途中で中断された場合でも、AI Gatewayに再接続して同じ応答を取得でき、新たに推論呼び出しを行ったり同じ出力トークンに対して二重に課金されたりすることはありません。Agents SDKの組み込みチェックポイント機能と組み合わせることで、エンドユーザーは中断をほとんど意識しません。

Replicateとの統合

Replicateチームは正式に私たちのAI Platformチームに合流しており、もはや別チームとは考えていません。ReplicateとCloudflareの統合作業を進めており、Replicate上のモデルをAI Gatewayに取り込み、ホストモデルをCloudflareインフラにリプラットフォームすることを含みます。

近いうちに、Replicateで人気だったモデルにAI Gateway経由でアクセスできるようになり、Replicate上にデプロイしたモデルをWorkers AI上でホストすることも可能になります。

はじめ方

  • AI Gatewayのドキュメントを確認してください。
  • Workers AIのドキュメントも参照してください。
  • Cloudflare上でエージェントを構築する方法はAgents SDKで学べます。
  • Cloudflare TVでビデオも視聴できます。

Cloudflareの接続クラウドは、企業ネットワーク全体を保護し、インターネット規模のアプリケーションを効率的に構築する手助けをし、あらゆるウェブサイトやインターネットアプリを高速化し、DDoS攻撃を防ぎ、ハッカーを寄せ付けず、Zero Trustへの旅路を支援します。無料アプリでインターネットをより速く安全にするには、任意のデバイスから1.1.1.1を訪問してください。私たちのミッションの詳細はここから始められます。

新しいキャリアを探している場合は、公開中の職種もご覧ください。

タグ: server-island-start, Agents Week, Agents, AI, AI Gateway, Workers AI, Developers, Developer Platform, LLM