Cloudflare’s AI Platform: an inference layer designed for agents

claudejamodel: claude-haiku-4-5

Cloudflareの AI プラットフォーム: エージェント向けに設計された推論レイヤー

AI モデルは急速に変化しています。今日のエージェント型コーディングに最適なモデルが、3 ヶ月後には異なるプロバイダーの全く異なるモデルになっているかもしれません。さらに、実世界のユースケースでは複数のモデルを呼び出す必要があることがよくあります。カスタマーサポートエージェントは、ユーザーのメッセージを分類するために高速で安価なモデルを使用し、アクションを計画するために大規模な推論モデルを使用し、個別のタスクを実行するために軽量なモデルを使用するかもしれません。つまり、単一のプロバイダーに財務的および運用的に縛られることなく、すべてのモデルにアクセスする必要があります。また、プロバイダー間でのコスト監視、いずれかのプロバイダーの障害時の信頼性確保、ユーザーがどこにいてもレイテンシを管理するための適切なシステムが必要です。これらの課題は AI で構築する際には常に存在しますが、エージェントを構築する際にはさらに緊急性が高まります。シンプルなチャットボットはユーザープロンプトごとに 1 つの推論呼び出しを行うかもしれません。エージェントは単一のタスクを完了するために 10 の呼び出しをチェーンしてしまい、突然、単一の遅いプロバイダーが 50ms ではなく 500ms を追加します。失敗したリクエストは再試行ではなく、突然下流の障害のカスケードが発生します。

AI Gateway と Workers AI の立ち上げ以来

Cloudflare で AI を活用したアプリケーションを構築する開発者からの信じられないほどの採用を見てきており、それに対応するために迅速に出荷してきました。ここ数ヶ月だけで、ダッシュボードを更新し、ゼロセットアップのデフォルトゲートウェイを追加し、上流の障害時の自動再試行を追加し、より細かいログ制御を追加しました。本日、Cloudflare を統一推論レイヤーにしています。任意のプロバイダーから任意の AI モデルにアクセスするための 1 つの API で、高速で信頼性が高いように構築されています。

1 つのカタログ、1 つの統一エンドポイント

本日から、Workers AI に既に使用している同じ AI.run() バインディングを使用して、サードパーティのモデルを呼び出すことができます。Workers を使用している場合、Cloudflare ホストモデルから OpenAI、Anthropic、または他のプロバイダーのモデルに切り替えるのは 1 行の変更です。

const response = await env.AI.run('anthropic/claude-opus-4-6',{
  input: 'What is Cloudflare?',
}, {
  gateway: {
    id: "default"
  },
});

Workers を使用していない人のために、今後数週間で REST API サポートをリリースする予定なので、任意の環境から完全なモデルカタログにアクセスできます。

70 以上のモデルに 12 以上のプロバイダーからアクセスできるようになることをお知らせできることを楽しみにしています。すべて 1 つの API、モデル間を切り替えるための 1 行のコード、それらに支払うための 1 つのクレジットセットを通じて。そして、私たちが進むにつれてこれを急速に拡張しています。

モデルカタログを参照して、Cloudflare Workers AI でホストされているオープンソースモデルから主要なモデルプロバイダーの独自モデルまで、ユースケースに最適なモデルを見つけることができます。Alibaba Cloud、AssemblyAI、Bytedance、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway、Vidu からのモデルへのアクセスを拡張していることをお知らせできることを楽しみにしています。これらは AI Gateway を通じてモデルを提供します。特に、画像、ビデオ、音声モデルを含むようにモデルオファリングを拡張しているため、マルチモーダルアプリケーションを構築できます。

1 つの API を通じてすべてのモデルにアクセス

1 つの API を通じてすべてのモデルにアクセスすることは、1 つの場所で AI 支出をすべて管理できることも意味します。今日、ほとんどの企業は複数のプロバイダーにわたって平均 3.5 のモデルを呼び出しており、どのプロバイダーも AI 使用状況の全体的なビューを提供できません。AI Gateway を使用すると、AI 支出を監視および管理するための 1 つの集中管理された場所が得られます。リクエストにカスタムメタデータを含めることで、無料ユーザーと有料ユーザーによる支出、個別の顧客による支出、またはアプリ内の特定のワークフローによる支出など、最も気になる属性での支出の内訳を取得できます。

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5', {
  prompt: 'What is AI Gateway?'
}, {
  metadata: {
    "teamId": "AI",
    "userId": 12345
  }
});

独自のモデルを持ち込む

AI Gateway は 1 つの API を通じてすべてのプロバイダーからモデルにアクセスできます。しかし、独自のデータで微調整したモデルや特定のユースケースに最適化されたモデルを実行する必要がある場合があります。そのために、ユーザーが独自のモデルを Workers AI に持ち込むことができるようにしています。当社のトラフィックの圧倒的多数は、当社のプラットフォームでカスタムモデルを実行しているエンタープライズ顧客向けの専用インスタンスから来ており、これをより多くの顧客にもたらしたいと考えています。

これを行うために、Replicate の Cog テクノロジーを活用して、機械学習モデルをコンテナ化するのに役立ちます。Cog はかなりシンプルに設計されています。cog.yaml ファイルに依存関係を記述し、Python ファイルに推論コードを記述するだけです。Cog は、CUDA 依存関係、Python バージョン、重みの読み込みなど、ML モデルのパッケージ化に関する難しいことをすべて抽象化します。

cog.yaml ファイルの例:

build:
  python_version: "3.13"
  python_requirements: requirements.txt
predict: "predict.py:Predictor"

predict.py ファイルの例。モデルをセットアップする関数と、推論リクエスト (予測) を受け取ったときに実行される関数があります:

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
  def setup(self):
    """Load the model into memory to make running multiple predictions efficient"""
    self.net = torch.load("weights.pth")

  def predict(self,
    image: Path = Input(description="Image to enlarge"),
    scale: float = Input(description="Factor to scale image by", default=1.5)
  ) -> Path:
    """Run a single prediction on the model"""
    # ... pre-processing ...
    output = self.net(input)
    # ... post-processing ...
    return output

その後、cog build を実行してコンテナイメージをビルドし、Cog コンテナを Workers AI にプッシュできます。当社がモデルをデプロイして提供し、通常の Workers AI API を通じてアクセスします。

より多くの顧客にこれをもたらすために、顧客向け API や wrangler コマンドなど、独自のコンテナをプッシュできるようにするための大きなプロジェクトに取り組んでいます。また、GPU スナップショットを通じた高速なコールドスタートも実現しています。Cloudflare チームと一部の外部顧客と内部でこれをテストしており、彼らは当社のビジョンをガイドしています。当社とのデザインパートナーになることに興味がある場合は、お気軽にお問い合わせください。

すぐに、誰もがモデルをパッケージ化して Workers AI を通じて使用できるようになります。

最初のトークンへの高速パス

AI Gateway で Workers AI モデルを使用することは、ライブエージェントを構築している場合に特に強力です。ユーザーの速度の認識は、最初のトークンまでの時間、またはエージェントが応答を開始する速度に左右されます。完全な応答がどのくらい長くかかるかではなく。合計推論が 3 秒であっても、最初のトークンを 50ms 高速化することで、ジッピーに感じるエージェントと鈍く感じるエージェントの違いが生まれます。

世界中 330 都市のデータセンターの Cloudflare ネットワークは、AI Gateway がユーザーと推論エンドポイントの両方に近い位置にあることを意味し、ストリーミングが開始される前のネットワーク時間を最小化します。Workers AI は、Kimi K2.5 やリアルタイム音声モデルなど、エージェント向けに特別に構築された大規模モデルを含む、パブリックカタログでオープンソースモデルをホストしています。

AI Gateway を通じてこれらの Cloudflare ホストモデルを呼び出すと、コードと推論が同じグローバルネットワーク上で実行されるため、パブリックインターネット上に追加のホップがなく、エージェントに可能な限り最低のレイテンシが与えられます。

自動フェイルオーバーで信頼性のために構築

エージェントを構築する場合、速度はユーザーが気にする唯一の要因ではありません。信頼性も重要です。エージェントワークフローのすべてのステップは、その前のステップに依存しています。信頼性の高い推論はエージェントにとって重要です。1 つの呼び出しが失敗すると、下流全体のチェーンに影響を与える可能性があるためです。

AI Gateway を通じて、複数のプロバイダーで利用可能なモデルを呼び出していて、1 つのプロバイダーがダウンしている場合、フェイルオーバーロジックを自分で記述することなく、別の利用可能なプロバイダーに自動的にルーティングします。Agents SDK で長時間実行されるエージェントを構築している場合、ストリーミング推論呼び出しは切断に対しても耐性があります。AI Gateway はストリーミング応答をバッファリングし、エージェントの有効期間とは独立して生成されます。エージェントが推論の途中で中断された場合、AI Gateway に再接続して、新しい推論呼び出しを行ったり、同じ出力トークンに 2 回支払ったりすることなく応答を取得できます。

Agents SDK の組み込みチェックポイント機能と組み合わせると、エンドユーザーは気づきません。

Replicate

Replicate チームは正式に当社の AI Platform チームに参加しており、当社は自分たちを別のチームと見なしていません。Replicate と Cloudflare 間の統合に懸命に取り組んでおり、これには Replicate モデルをすべて AI Gateway に持ち込み、ホストされたモデルを Cloudflare インフラストラクチャに再プラットフォーム化することが含まれます。

すぐに、Replicate で愛用していたモデルに AI Gateway を通じてアクセスでき、Replicate にデプロイしたモデルを Workers AI でホストできるようになります。

始める

始めるには、AI Gateway または Workers AI のドキュメントを確認してください。Agents SDK を通じて Cloudflare でエージェントを構築する方法の詳細をご覧ください。Cloudflare TV で視聴してください。

Cloudflare の接続クラウドは企業ネットワーク全体を保護し、顧客がインターネット規模のアプリケーションを効率的に構築するのに役立ち、任意の Web サイトまたはインターネットアプリケーションを高速化し、DDoS 攻撃を防ぎ、ハッカーを遠ざけ、Zero Trust への道のりをサポートできます。任意のデバイスから 1.1.1.1 にアクセスして、インターネットをより高速で安全にする無料アプリを始めてください。より良いインターネットを構築するという当社のミッションについて詳しく知るには、ここから始めてください。新しいキャリアの方向性を探している場合は、当社の求人情報をご確認ください。

Summary