ClaudeCloudflareApr 20, 2026, 1:00 PM

The AI engineering stack we built internally — on the platform we ship

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-haiku-4-5

Cloudflare's Internal AI Engineering Stack: Building on Their Own Platform

Key Points

  • 93% of R&D using AI tools built on Cloudflare's own platform
  • 77% cost savings using Workers AI vs. frontier models
  • Single command setup with zero manual configuration required

Summary

Cloudflare built a comprehensive internal AI engineering stack that powers 93% of their R&D organization. Over eleven months, the iMARS tiger team integrated AI tooling across the company, resulting in 3,683 active users, 47.95 million monthly AI requests, and a near-doubling of merge requests (from ~5,600/week to 10,952 at peak). Notably, the entire stack runs on Cloudflare's shipping products—not custom internal infrastructure.

Key Points

  • Platform Architecture: Built on Cloudflare Access (authentication), AI Gateway (routing/cost tracking), Workers AI (inference), and MCP servers for agent integration
  • Adoption Metrics: 295 teams using agentic AI tools; 241.37B tokens routed through AI Gateway; 51.83B tokens processed on Workers AI monthly
  • Cost Efficiency: Open-source models on Workers AI cost 77% less than frontier models (e.g., security agent processing 7B tokens/day saves ~$2.4M annually)
  • Zero-Trust Security: All requests authenticated via Cloudflare Access; API keys managed server-side via proxy Worker; anonymous UUID tracking for analytics
  • Single Command Setup: opencode auth login configures providers, models, MCP servers, agents, and permissions automatically via discovery endpoint
  • MCP Portal: 13 production servers exposing 182+ tools across Backstage, GitLab, Jira, Sentry, and internal systems with unified OAuth and Access controls
  • Developer Velocity: Quarter-to-quarter merge request increases unprecedented; Workers AI handling growing share of lightweight inference and documentation review tasks
  • Config-as-Code: Agents and commands authored as markdown with YAML frontmatter; compiled to JSON and deployed via wrangler deploy

Architecture Layers

Platform Layer: AI Gateway, Workers AI, MCP Portal, Code Mode (sandboxed execution)

Knowledge Layer: Backstage integration, AGENTS.md context files, 16K+ entity knowledge graph

Enforcement Layer: AI Code Reviewer with CI integration, Engineering Codex for quality standards

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-haiku-4-5

内部構築したAIエンジニアリングスタック — 提供するプラットフォーム上で実装

概要

CloudflareのR&D組織の93%が、過去30日間で自社プラットフォーム上に構築したインフラストラクチャを活用したAIコーディングツールを使用しています。11ヶ月前、AIをエンジニアリングスタックに真に統合するための大規模プロジェクトを開始しました。エージェントがCloudflareで有用になるために必要な内部MCPサーバー、アクセスレイヤー、AIツーリングを構築する必要がありました。

会社全体からエンジニアを集めて、iMARS(Internal MCP Agent/Server Rollout Squad)というタイガーチームを編成しました。継続的な取り組みはDev Productivityチームに引き継がれ、CI/CD、ビルドシステム、自動化を含む内部ツーリングの多くを所有しています。

過去30日間のエージェントAI使用統計

  • 3,683人の内部ユーザーがAIコーディングツールを積極的に使用(全社の60%、R&D部門の93%)、約6,100人の従業員総数のうち
  • 4,795万件のAIリクエスト
  • 295チームがエージェントAIツールとコーディングアシスタントを利用中
  • 月間2,018万件のAI Gatewayリクエスト
  • 2,413億7,000万トークンがAI Gatewayを経由
  • 518億3,000万トークンがWorkers AIで処理

開発者速度への影響

開発者速度への影響は明確です。マージリクエストの四半期ごとの増加がこれまでにないレベルに達しています。AIツーリング採用の成長に伴い、4週間ローリング平均は週約5,600件から8,700件以上に上昇しました。3月23日の週は10,952件に達し、Q4ベースラインのほぼ2倍です。

アーキテクチャ概要

MCPサーバーは出発点でしたが、チームはさらに進む必要があることに気づきました。標準がどのようにコード化されるか、コードがどのようにレビューされるか、エンジニアがどのようにオンボードされるか、変更が数千のリポジトリ全体にどのように伝播するかを再考する必要がありました。

エンジニア向けツールレイヤー

OpenCode、Windsurf、およびその他のMCP互換クライアントには、オープンソースおよびサードパーティのコーディングアシスタントツールが含まれます。

構築内容

構築内容使用製品
Zero Trust認証Cloudflare Access
集中化されたLLMルーティング、コスト追跡、BYOK、Zero Data Retention制御AI Gateway
オンプラットフォーム推論(オープンウェイトモデル)Workers AI
シングルOAuthを備えたMCPサーバーポータルWorkers + Access
CI統合Workers + AI Gateway
エージェント生成コードのサンドボックス実行(Code Mode)Dynamic Workers
ステートフルな長時間実行エージェントセッションAgents SDK (McpAgent, Durable Objects)
クローン、ビルド、テスト用の隔離環境Sandbox SDK — Agents Week時点でGA
隔離されたマルチステップワークフローWorkflows — Agents Week中に10倍スケール
16K+エンティティナレッジグラフBackstage (OSS)

Act 1: プラットフォームレイヤー

AI Gatewayがセキュリティを維持し開発者体験を向上させた方法

3,600人以上の内部ユーザーが毎日AIコーディングツールを使用している場合、多くのクライアント、ユースケース、ロール全体でアクセスと可視性を解決する必要があります。すべてはCloudflare Accessで始まり、すべての認証とゼロトラストポリシー実行を処理します。認証後、すべてのLLMリクエストはAI Gatewayを経由します。これにより、プロバイダーキー、コスト追跡、データ保持ポリシーを管理する単一の場所が提供されます。

OpenCode AI Gateway概要:

  • 1日あたり688,460件のリクエスト
  • 1日あたり105億7,000万トークン
  • 1つのエンドポイントを通じて4つのプロバイダーにルーティング

月間リクエスト分布

プロバイダーリクエスト/月シェア
Frontier Labs (OpenAI, Anthropic, Google)1,338万91.16%
Workers AI130万8.84%

フロンティアモデルは現在、複雑なエージェントコーディング作業の大部分を処理していますが、Workers AIはすでにミックスの重要な部分であり、エージェントエンジニアリングワークロードの増加するシェアを処理しています。

Workers AIの活用拡大

Workers AIはCloudflareのサーバーレスAI推論プラットフォームで、グローバルネットワーク全体のGPU上でオープンソースモデルを実行します。フロンティアモデルと比較した大幅なコスト改善を超えて、主な利点は推論がWorkers、Durable Objects、ストレージと同じネットワーク上に留まることです。クラウド間のホップを処理する必要がなく、これにより遅延、ネットワーク不安定性、管理する追加のネットワーク構成が増加します。

過去1ヶ月のWorkers AI使用量:

  • 514億7,000万入力トークン
  • 3億6,112万出力トークン

Kimi K2.5

2026年3月にWorkers AIで起動されたKimi K2.5は、256kコンテキストウィンドウ、ツール呼び出し、構造化出力を備えたフロンティアスケールのオープンソースモデルです。セキュリティエージェントは1日あたり70億トークン以上を処理します。ミッドティアの独自モデルでは推定年間240万ドルのコストがかかりますが、Workers AIでは77%安くなります。

セキュリティを超えて、CIパイプラインでのドキュメントレビュー、数千のリポジトリ全体でのAGENTS.mdコンテキストファイルの生成、ピークモデル機能よりも同一ネットワーク遅延が重要な軽量推論タスクにWorkers AIを使用します。

初期段階で正しく実施したこと

初日から単一のプロキシWorkerを通じたルーティング。クライアントがAI Gatewayに直接接続することもできましたが、初期設定はより簡単でした。しかし、Workerを通じた集中化により、後でクライアント構成に触れることなく、ユーザーごとの属性、モデルカタログ管理、権限実行を追加できました。

ブートストラップセクションで説明されているすべての機能は、その単一のチョークポイントがあるため存在します。プロキシパターンは直接接続では提供されない制御プレーンを提供し、後で追加のコーディングアシスタントツールをプラグインする場合、同じWorkerと検出エンドポイントがそれらを処理します。

1つのURLですべてを構成する方法

全体的なセットアップは1つのコマンドで始まります:

opencode auth login https://opencode.internal.domain

このコマンドは、ユーザーが構成ファイルに触れることなく、プロバイダー、モデル、MCPサーバー、エージェント、コマンド、権限を構成するチェーンをトリガーします。

ステップ1: 認証要件を検出

OpenCodeはhttps://opencode.internal.domain/.well-known/opencodeのようなURLから構成をフェッチします。この検出エンドポイントはWorkerによって提供され、レスポンスには、OpenCodeに認証方法を指示するauthブロック、およびプロバイダー、MCPサーバー、エージェント、コマンド、デフォルト権限を含むconfigブロックがあります:

{
  "auth": {
    "command": ["cloudflared", "access", "login", "..."],
    "env": "TOKEN"
  },
  "config": {
    "provider": { "..." },
    "mcp": { "..." },
    "agent": { "..." },
    "command": { "..." },
    "permission": { "..." }
  }
}

ステップ2: Cloudflare Accessを通じて認証

OpenCodeは認証コマンドを実行し、ユーザーはCloudflareで他のすべてに使用するのと同じSSOを通じて認証します。cloudflaredは署名付きJWTを返します。OpenCodeはそれをローカルに保存し、その後のすべてのプロバイダーリクエストに自動的に添付します。

ステップ3: 構成がOpenCodeにマージされる

提供される構成は組織全体の共有デフォルトですが、ローカル構成は常に優先されます。ユーザーはデフォルトモデルをオーバーライドしたり、独自のエージェントを追加したり、他の人に影響を与えることなくプロジェクトおよびユーザースコープの権限を調整できます。

プロキシWorker内部

WorkerはHonoアプリで、3つのことを行います:

共有構成を提供

構成はデプロイ時に構造化されたソースファイルからコンパイルされ、Workerのオリジンの{baseURL}のようなプレースホルダー値を含みます。リクエスト時に、Workerはこれらを置き換えるため、すべてのプロバイダーリクエストはモデルプロバイダーに直接ではなくWorkerを経由してルーティングされます。

各プロバイダーはパスプレフィックス(/anthropic/openai/google-ai-studio/v1beta、Workers AI用の/compat)を取得し、Workerは対応するAI Gatewayルートに転送します。

AI Gatewayへのリクエストをプロキシ

OpenCodeがPOST /anthropic/v1/messagesのようなリクエストを送信すると、Workerはcloudflare Access JWTを検証してからヘッダーを書き直してから転送します:

削除:

  • authorization
  • cf-access-token
  • host

追加:

  • cf-aig-authorization: Bearer <API_KEY>
  • cf-aig-metadata: {"userId": "<anonymous-uuid>"}

リクエストはAI Gatewayに送信され、適切なプロバイダーにルーティングします。レスポンスはバッファリングなしで直接通過します。クライアント構成のapiKeyフィールドは空です。Workerが実際のキーをサーバー側に注入するためです。ユーザーマシンにはAPIキーが存在しません。

モデルカタログを新鮮に保つ

時間ごとのcronトリガーは、models.devから現在のOpenAIモデルリストをフェッチし、Workers KVにキャッシュし、Zero Data Retentionのためにすべてのモデルにstore: falseを注入します。新しいモデルは構成の再デプロイなしでZDRを自動的に取得します。

匿名ユーザー追跡

JWT検証後、Workerはユーザーのメールを永続ストレージ用のD1とリード用キャッシュとしてのKVを使用してUUIDにマップします。AI Gatewayはcf-aig-metadataの匿名UUIDのみを見て、メールは見ません。これにより、モデルプロバイダーやGatewayログにアイデンティティを公開することなく、ユーザーごとのコスト追跡と使用分析が提供されます。

コードとしての構成

エージェントとコマンドはYAMLフロントマターを含むマークダウンファイルとして作成されます。ビルドスクリプトはそれらをOpenCode JSONスキーマに対して検証された単一のJSON構成にコンパイルします。すべての新しいセッションは最新バージョンを自動的に取得します。

全体的なアーキテクチャ

全体的なアーキテクチャはシンプルで、開発者プラットフォームで誰でも簡単にデプロイできます:プロキシWorker、Cloudflare Access、AI Gateway、およびOpenCodeを自動的に構成するクライアントアクセス可能な検出エンドポイント。

ユーザーは1つのコマンドを実行して完了です。手動で構成するものはなく、ラップトップにAPIキーがなく、MCPサーバー接続を手動で設定する必要もありません。エージェントツールへの変更を加え、3,000人以上が自分のコーディング環境で取得するものを更新することは、wrangler deployだけです。

MCPサーバーポータル: 1つのOAuth、複数のMCPツール

エンタープライズスケールでのMCP管理への完全なアプローチについては、別の投稿で説明しました。MCPサーバーポータル、Cloudflare Access、Code Modeの使用方法を含みます。内部構築内容の短いバージョンは以下の通りです。

内部ポータルは、Backstage、GitLab、Jira、Sentry、Elasticsearch、Prometheus、Google Workspace、内部Release Manager、およびその他にわたって182以上のツールを公開する13の本番MCPサーバーを集約します。これはアクセスを統一し、すべてを簡素化し、1つのエンドポイントと1つのCloudflare Accessフローがすべてのツールへのアクセスを管理します。

各MCPサーバーは同じ基盤上に構築されています:

  • Agents SDKからのMcpAgent
  • workers-oauth-provider
  • アイデンティティ用のCloudflare Access

全体は共有認証インフラストラクチャ、Bazelビルド、CI/CDパイプライン、およびBackstage登録用のcatalog-info.yamlを備えた単一のモノレポに存在します。新しいサーバーを追加することは、主に既存のサーバーをコピーして、ラップするAPIを変更することです。

これがどのように機能するか、およびその背後にあるセキュリティアーキテクチャの詳細については、エンタープライズMCPリファレンスアーキテクチャを参照してください。

ポータルレイヤーでのCode Mode

MCPはAIエージェントをツールに接続するための正しいプロトコルですが、実際的な問題があります:すべてのツール

The AI engineering stack we built internally — on the platform we ship | Cloudflare | DocsDigest