Cloudflareの第13世代サーバーの発表:エッジコンピュート性能を2倍にするためのキャッシュからコアへのトレードオフ
2026年3月23日 | Syona Sarma、JQ Lau、Jesse Brandeburg | 6分で読める
2年前、Cloudflareは大容量の3D V-Cacheを搭載したAMD EPYC™ Genoa-Xプロセッサーをベースとした第12世代サーバーフリートを展開しました。そのキャッシュ重視のアーキテクチャは、当時のリクエスト処理レイヤーであるFL1に完璧にマッチしていました。しかし、次世代ハードウェアを評価する際、私たちはジレンマに直面しました。最大のスループット向上を提供するCPUには、大幅なキャッシュ削減が伴っていたのです。私たちのレガシーソフトウェアスタックはこれに最適化されておらず、潜在的なスループットの利点は増加するレイテンシによって制限されていました。
このブログでは、Cloudflareのコアリクエスト処理レイヤーのRustベースの書き直しであるFL2への移行が、第13世代の完全な潜在能力を証明し、以前のスタックでは不可能だった性能向上を実現した方法について説明します。FL2は大容量キャッシュへの依存を取り除き、SLAを維持しながらコア数に応じて性能をスケールできるようにします。
本日、私たちはFL2を実行するAMD EPYC™第5世代Turinベースサーバーに基づくCloudflareの第13世代の発表を誇りに思います。これにより、エッジでの性能を効果的に捉え、スケールすることができます。
AMD EPYC Turinがもたらすもの
AMDのEPYC™第5世代Turinベースプロセッサーは、単なるコア数の増加以上のものを提供します。このアーキテクチャは、Cloudflareサーバーが必要とする複数の次元で改善を実現します。
- 2倍のコア数:第12世代の96コアに対して最大192コア、SMTにより384スレッド
- 改善されたIPC:Zen 5のアーキテクチャ改善により、Zen 4と比較してより良いサイクルあたり命令数を実現
- より良い電力効率:より高いコア数にもかかわらず、TurinはGenoa-Xと比較してコアあたり最大32%少ない電力を消費
- DDR5-6400サポート:すべてのコアに供給するためのより高いメモリ帯域幅
しかし、Turinの高密度OPNは意図的なトレードオフを行います:コアあたりキャッシュよりもスループットを優先するのです。Turinスタック全体での私たちの分析は、この変化を浮き彫りにしました。例えば、最高密度のTurin OPNを第12世代Genoa-Xプロセッサーと比較すると、Turinの192コアが384MBのL3キャッシュを共有していることがわかります。これにより、各コアがアクセスできるのはわずか2MBで、第12世代の割り当ての6分の1です。私たちのワークロードのように、キャッシュの局所性に大きく依存するワークロードにとって、この削減は深刻な課題を提起しました。
| 世代 | プロセッサー | コア/スレッド | コアあたりL3キャッシュ |
|---|
| 第12世代 | AMD Genoa-X 9684X | 96C/192T | 12MB (3D V-Cache) |
| 第13世代 オプション1 | AMD Turin 9755 | 128C/256T | 4MB |
| 第13世代 オプション2 | AMD Turin 9845 | 160C/320T | 2MB |
| 第13世代 オプション3 | AMD Turin 9965 | 192C/384T | 2MB |
パフォーマンスカウンターによる問題の診断
NGINXとLuaJITベースのコードである私たちのFL1リクエスト処理レイヤーにとって、このキャッシュ削減は重大な課題でした。しかし、私たちは単に問題になると仮定するのではなく、測定しました。第13世代のCPU評価フェーズ中、AMD uProfツールを使用してCPUパフォーマンスカウンターとプロファイリングデータを収集し、内部で何が起こっているかを正確に特定しました。
データが示したのは:
- L3キャッシュミス率が3D V-cacheプロセッサーを搭載した第12世代サーバーと比較して劇的に増加
- 以前はL3に留まっていたデータがDRAMへのアクセスを必要とするようになり、メモリフェッチレイテンシがリクエスト処理時間を支配
- CPU使用率を高く押し上げ、キャッシュ競合が悪化するにつれて、レイテンシペナルティが使用率とともにスケール
L3キャッシュヒットは約50サイクルで完了しますが、DRAMアクセスを必要とするL3キャッシュミスは350+サイクルかかり、桁違いの差があります。コアあたり6倍少ないキャッシュで、第13世代のFL1はメモリにはるかに頻繁にヒットし、レイテンシペナルティを被っていました。
トレードオフ:レイテンシ対スループット
第13世代でFL1を実行した初期テストは、パフォーマンスカウンターがすでに示唆していたことを確認しました。Turinプロセッサーはより高いスループットを達成できましたが、それは急激なレイテンシコストを伴いました。
| メトリック | 第12世代 (FL1) | 第13世代 - AMD Turin 9755 (FL1) | 第13世代 - AMD Turin 9845 (FL1) | 第13世代 - AMD Turin 9965 (FL1) | 差分 |
|---|
| コア数 | ベースライン | +33% | +67% | +100% | 改善 |
| FLスループット | ベースライン | +10% | +31% | +62% | 改善 |
| 低〜中程度CPU使用率でのレイテンシ | ベースライン | +10% | +30% | +30% | 悪化 |
| 高CPU使用率でのレイテンシ | ベースライン | > 20% | > 50% | > 50% | 受け入れ不可 |
60%のスループット向上を生成したAMD Turin 9965を搭載した第13世代評価サーバーは魅力的で、性能向上はCloudflareの総所有コスト(TCO)に最も改善をもたらしました。しかし、50%以上のレイテンシペナルティは受け入れられません。リクエスト処理レイテンシの増加は、顧客体験に直接影響します。私たちは馴染みのあるインフラストラクチャの問題に直面しました:TCO利益のないソリューションを受け入れるか、増加したレイテンシのトレードオフを受け入れるか、レイテンシを追加せずに効率を向上させる方法を見つけるかです。
パフォーマンスチューニングによる段階的向上
最適な結果への道を見つけるため、私たちはAMDと協力してTurin 9965データを分析し、ターゲットを絞った最適化実験を実行しました。複数の構成を体系的にテストしました:
- ハードウェアチューニング:ハードウェアプリフェッチャーとData Fabric(DF)Probe Filtersの調整、わずかな向上のみ
- ワーカーのスケーリング:より多くのFL1ワーカーの起動、スループットは改善したが他の本番サービスからリソースを奪う
- CPUピニング&分離:最適な組み合わせを見つけるためのワークロード分離構成の調整、限定的な成功
最終的に最も価値を提供した構成は、AMDのPlatform Quality of Service(PQOS)でした。PQOS拡張機能は、キャッシュやメモリ帯域幅などの共有リソースの細かい制御を可能にします。Turinプロセッサーは1つのI/O Dieと最大12のCore Complex Dies(CCD)で構成され、それぞれが最大16コア間でL3キャッシュを共有するため、これをテストしました。
異なる実験構成の性能は以下の通りです。まず、PQOSを使用してFL1用に単一のCCD内で専用のL3キャッシュ共有を割り当てましたが、向上は最小限でした。しかし、この概念をソケットレベルにスケールし、CCD全体をFL1専用にすると、レイテンシを許容範囲に保ちながら意味のあるスループット向上が見られました。
| 構成 | 説明 | 性能向上 |
|---|
| NUMA対応コアアフィニティ(ソケットレベルのPQOSと同等) | 12のCCDのうち6つ(NUMAドメインと整列)がFLを実行。各CCDの32MB L3キャッシュがすべてのコア間で共有。 | >15%の段階的スループット向上 |
| PQOS構成1 | 各CCDの各物理コアの2つのvCPUのうち1つがFLを実行。FLが各CCDの32MB L3キャッシュの75%を取得。 | <5%の段階的スループット向上。他のサービスに軽微な劣化の兆候 |
| PQOS構成2 | 各CCDの各物理コアの2つのvCPUのうち1つがFLを実行。FLが各CCDの32MB L3キャッシュの50%を取得。 | <5%の段階的スループット向上 |
| PQOS構成3 | 各CCDの物理コアの50%で2つのvCPUがFLを実行。FLが各CCDの32MB L3キャッシュの50%を取得。 | <5%の段階的スループット向上 |
機会:FL2はすでに進行中
ハードウェアチューニングとリソース構成は控えめな向上をもたらしましたが、第13世代アーキテクチャの性能ポテンシャルを真に解放するには、システムリソースの利用方法を根本的に変更するためにソフトウェアスタックを書き直す必要があることがわかりました。
幸い、私たちはゼロから始めるわけではありませんでした。Birthday Week 2025で発表したように、私たちはすでにFL1を一から再構築していました。FL2は、15年間のNGINXとLuaJITコードを置き換える、PingoraとOxyフレームワーク上に構築されたRustでのリクエスト処理レイヤーの完全な書き直しです。
FL2プロジェクトは第13世代のキャッシュ問題を解決するために開始されたのではありません。より良いセキュリティ(Rustのメモリ安全性)、より速い開発速度(厳密なモジュールシステム)、そして全体的な性能向上(より少ないCPU、より少ないメモリ、モジュラー実行)の必要性によって推進されました。
より良いメモリアクセスパターンとより少ない動的割り当てを持つFL2のよりクリーンなアーキテクチャは、FL1のように大容量L3キャッシュに依存しない可能性があります。これにより、FL2への移行を使用して、第13世代のスループット向上がレイテンシペナルティなしに実現できるかどうかを証明する機会が得られました。
実証:第13世代でのFL2
FL2のロールアウトが進むにつれて、第13世代サーバーからの本番メトリクスは私たちが仮説立てしていたことを検証しました。
| メトリック | 第13世代 AMD Turin 9965 (FL1) | 第13世代 AMD Turin 9965 (FL2) |
|---|
| CPU%あたりFLリクエスト | ベースライン | 50%高い |
| 第12世代対レイテンシ | ベースライン | 70%低い |
| 第12世代対スループット | 62%高い | 100%高い |
新しいFL2スタックでの箱から出してすぐの効率向上は、システム最適化前でも大幅でした。FL2はレイテンシペナルティを70%削減し、レイテンシSLAを厳密に満たしながら第13世代をより高いCPU使用率に押し上げることを可能にしました。FL1の下では、これは不可能だったでしょう。
キャッシュボトルネックを効果的に排除することで、FL2はスループットをコア数と線形にスケールできるようにします。高密度AMD Turin 9965での影響は否定できません:私たちは2倍の性能向上を達成し、ハードウェアの真のポテンシャルを解放しました。さらなるシステムチューニングにより、第13世代フリートからさらに多くの力を絞り出すことを期待しています。
第13世代での世代的改善
FL2が高コア数AMD Turin 9965の巨大なスループットを解放したことで、私たちは正式にこれらのプロセッサーを第13世代展開用に選択しました。ハードウェア認定は完了し、第13世代サーバーは現在、グローバルロールアウトをサポートするために大規模に出荷されています。
性能改善
| 第12世代 | 第13世代 |
|---|
| プロセッサー | AMD EPYC™第4世代 Genoa-X 9684X | AMD EPYC™第5世代 Turin 9965 |
| コア数 | 96C/192T | 192C/384T |
| FLスループット | ベースライン | 最大+100% |
| ワットあたり性能 | ベースライン | 最大+50% |
第13世代のビジネスインパクト
-
妥協のない顧客体験のための第12世代対最大2倍のスループット:レイテンシSLA内に留まりながらスループット容量を倍増することで、アプリケーションが高速で応答性を保ち、大規模なトラフィックスパイクを吸収できることを保証します。
-
持続可能なスケーリングのための第12世代対50%向上したワットあたり性能:この電力効率の向上は、データセンター拡張コストを削減するだけでなく、リクエストあたりの大幅に低いカーボンフットプリントで成長するトラフィックを処理できるようにします。
-
グローバルエッジアップグレードのための第12世代対60%高いラックスループット:ラック電力予算を一定に保ちながらこのスループット密度を達成したため、世界中のグローバルエッジネットワーク全体でこの次世代コンピュートをシームレスに展開し、顧客が望む場所で正確にトップティアの性能を提供できます。
第13世代 + FL2:エッジの準備完了
私たちのレガシーリクエスト処理レイヤーFL1は第13世代でキャッシュ競合の壁にぶつかり、スループットとレイテンシ間の受け入れ不可能なトレードオフを強いられました。妥協する代わりに、私たちはFL2を構築しました。大幅により軽量なメモリアクセスパターンで設計されたFL2は、大容量L3キャッシュへの依存を取り除き、コア数との線形スケーリングを可能にします。
第13世代AMD Turinプラットフォーム上で実行されるFL2は、SLA内でレイテンシを保ちながら2倍のスループットと50%の電力効率向上を解放します。この飛躍的進歩は、ハードウェア・ソフトウェア協調設計の重要性を改めて思い起こさせます。
キャッシュ制限に制約されることなく、第13世代サーバーは現在、Cloudflareのグローバルネットワーク全体で数百万のリクエストを処理するために展開する準備が整いました。
グローバルスケールでのインフラストラクチャでの作業に興味がある方は、私たちは採用中です。
Cloudflareのconnectivity cloudは企業ネットワーク全体を保護し、顧客がインターネット規模のアプリケーションを効率的に構築することを支援し、あらゆるウェブサイトやインターネットアプリケーションを加速し、DDoS攻撃を防ぎ、ハッカーを寄せ付けず、Zero Trustへの旅路でお手伝いします。任意のデバイスから1.1.1.1にアクセスして、インターネットをより高速で安全にする無料アプリを始めましょう。より良いインターネットの構築を支援する私たちのミッションについて詳しく学ぶには、こちらから始めてください。新しいキャリアの方向性をお探しの場合は、私たちの求人をご確認ください。