ClaudeOpenAI NewsMar 6, 2026, 10:00 AM

Codex Security: now in research preview

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-sonnet-4-20250514

OpenAI Launches Codex Security Research Preview for Application Security

Key Points

  • AI security agent with 84% noise reduction and 50% fewer false positives
  • Discovered 14 CVEs in major open-source projects including OpenSSH and GnuTLS
  • Research preview available to ChatGPT Pro/Enterprise customers with free trial

Summary

OpenAI has released Codex Security (formerly Aardvark) in research preview for ChatGPT Pro, Enterprise, Business, and Edu customers. This AI-powered application security agent uses frontier models to identify complex vulnerabilities with high confidence while reducing false positives and noise.

Key Points

  • Context-Aware Analysis: Builds deep system context and generates editable threat models to understand security-relevant structure and prioritize real-world impact
  • Significant Quality Improvements: Reduced noise by 84%, cut over-reported severity by 90%, and decreased false positives by 50% during beta testing
  • Automated Validation: Pressure-tests findings in sandboxed environments and provides working proof-of-concepts for stronger evidence
  • Scale Performance: Scanned 1.2M+ commits in 30 days, identifying 792 critical and 10,561 high-severity findings with critical issues in <0.1% of commits
  • Open Source Support: Discovered vulnerabilities in major projects (OpenSSH, GnuTLS, GOGS, Chromium) resulting in 14 assigned CVEs
  • Actionable Fixes: Proposes system-aligned patches that minimize regressions and improve security while reducing triage burden

Availability

Rolling out to ChatGPT Enterprise, Business, and Edu customers with free usage for the first month. Includes dedicated open-source maintainer program (Codex for OSS).

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-sonnet-4-20250514

Codex Security: リサーチプレビューを開始

本日、アプリケーションセキュリティエージェントであるCodex Securityを発表します。プロジェクトに関する深いコンテキストを構築し、他のエージェントツールが見逃す複雑な脆弱性を特定し、システムのセキュリティを有意義に改善する修正案とともに、より高い信頼性の発見を提示します。同時に、重要でないバグのノイズからあなたを解放します。

実際のセキュリティリスクを評価する際、コンテキストは不可欠ですが、ほとんどのAIセキュリティツールは単に影響の少ない発見や偽陽性にフラグを立てるだけで、セキュリティチームはトリアージに多大な時間を費やすことを余儀なくされています。同時に、エージェントがソフトウェア開発を加速させており、セキュリティレビューがますます重要なボトルネックになっています。

Codex Securityは両方の課題に対処します。フロンティアモデルからのエージェント推論と自動検証を組み合わせることで、高信頼性の発見と実行可能な修正を提供し、チームが重要な脆弱性に集中し、より迅速にセキュアなコードを出荷できるようにします。

以前はAardvarkとして知られていた

Codex Securityは昨年、少数の顧客グループとのプライベートベータとして始まりました。初期の内部展開では、実際のSSRF、重要なクロステナント認証脆弱性、その他多くの問題を発見し、セキュリティチームが数時間以内にパッチを適用しました。

外部テスターとの初期展開により、ユーザーが関連する製品コンテキストを提供する方法を改善し、オンボーディングからコードのセキュリティ確保への移行を支援しました。また、ベータ期間中に発見の品質を大幅に改善しました:

  • 同じリポジトリでの時系列スキャンでは精度の向上が示され、あるケースでは初期展開以来ノイズを84%削減
  • 過大報告された重要度の発見率を90%以上削減
  • すべてのリポジトリで検出の偽陽性率を50%以上削減

これらの改善により、Codex Securityは報告された重要度を実世界のリスクとより良く整合させ、セキュリティチームの不要なトリアージ負担を軽減し、シグナル対ノイズ比の継続的な改善が期待されます。

本日より、Codex SecurityはChatGPT Pro、Enterprise、Business、Eduの顧客にCodex web経由でリサーチプレビューとして展開され、来月は無料で利用できます。

Codex Securityの仕組み

Codex SecurityはOpenAIのフロンティアモデルとCodexエージェントを活用します。システム固有のコンテキストに基づいて脆弱性の発見、検証、パッチ適用を行うことで、ノイズを削減し、修復を加速できます。

システムコンテキストの構築と編集可能な脅威モデルの作成

スキャンを設定した後、リポジトリを分析してシステムのセキュリティ関連構造を理解し、システムが何をするか、何を信頼するか、どこが最も露出しているかを捉えるプロジェクト固有の脅威モデルを生成します。脅威モデルは編集可能で、エージェントをチームと整合させることができます。

問題の優先順位付けと検証

脅威モデルをコンテキストとして使用し、脆弱性を検索し、システムでの予想される実世界の影響に基づいて発見を分類します。可能な場合、サンドボックス化された検証環境で発見を圧力テストし、シグナルとノイズを区別します。ユーザーは検証された発見でこの分析を確認できます。

Codex Securityがプロジェクトに合わせた環境で設定されている場合、実行中のシステムのコンテキストで潜在的な問題を直接検証できます。この深い検証により、偽陽性をさらに削減し、動作する概念実証の作成を可能にし、セキュリティチームにより強力な証拠と明確な修復への道筋を提供します。

完全なシステムコンテキストでの問題のパッチ

最後に、Codex Securityは発見された問題に対して、システムの意図と周囲の動作に整合する修正を提案します。これにより、回帰を最小限に抑えながらセキュリティを改善できるパッチが可能になり、レビューと適用がより安全になります。

ユーザーは発見をフィルタリングして、チームにとって最も重要で、セキュリティへの影響が最も高いものに集中できます。Codex Securityは時間の経過とともにフィードバックから学習し、発見の品質を改善することもできます。発見の重要度を調整すると、そのフィードバックを使用して脅威モデルを改良し、アーキテクチャとリスク姿勢で重要なことを学習しながら、後続の実行での精度を向上させます。

大規模で動作し、受け入れやすいパッチとともに最高信頼性の発見を提示するよう設計されています。過去30日間で、Codex Securityはベータコホートの外部リポジトリで120万以上のコミットをスキャンし、792の重要な発見と10,561の高重要度発見を特定しました。重要な問題はスキャンされたコミットの0.1%未満に現れ、システムが大量のコードでセキュリティに影響する問題を特定しながら、レビュアーへのノイズを最小限に抑えることができることを示しています。

顧客の声

NETGEAR

「製品セキュリティにレーザーフォーカスしている企業として、NETGEARは早期アクセスプログラムに参加できて嬉しく、結果は期待を上回りました。Codex Securityは堅牢なセキュリティ開発環境に努力なく統合され、レビュープロセスのペースと深度を強化しました。その発見は印象的に明確で包括的で、経験豊富な製品セキュリティ研究者が私たちと一緒に働いているような感覚を与えることがよくありました。」 — Chandan Nandakumaraiah、NETGEAR製品セキュリティ責任者、CVE Board メンバー

オープンソースコミュニティの支援

オープンソースソフトウェアは、私たち自身のものを含む現代システムの基盤を形成しています。私たちは最も依存するオープンソースリポジトリをスキャンするためにCodex Securityを使用し、特定した高影響セキュリティ発見をメンテナーと共有して、その基盤を強化しています。

メンテナーとの会話で一貫したテーマが浮上しました:課題は脆弱性レポートの不足ではなく、低品質なものが多すぎることです。メンテナーは、偽陽性を減らし、追加のトリアージ負担を作ることなく実際のセキュリティ問題を提示するより持続可能な方法が必要だと述べました。

これらの会話は、Codex Securityでオープンソースコミュニティをどのようにサポートするかを形作るのに役立ちました。大量の推測的発見を生成するのではなく、メンテナーが迅速に行動できる高信頼性の問題を優先するシステムを構築しています。

この作業の一環として、OpenSSH、GnuTLS、GOGS、Thorium、libssh、PHP、Chromiumなど、広く使用されている多数のオープンソースプロジェクトに重要な脆弱性を報告しました。14のCVEが割り当てられ、2つで重複報告がありました — 付録でいくつかの例を共有しています。

最近、オープンソースメンテナーの初期コホートをCodex for OSSにオンボーディングし始めました。これは無料のChatGPT ProとPlusアカウント、コードレビュー、Codex Securityでエコシステムをサポートするプログラムです。vLLMなどのプロジェクトは既に通常のワークフローの一部としてCodex Securityを使用して問題を発見し、パッチを適用しています。

今後数週間でプログラムを拡大し、より多くのメンテナーがより良いセキュリティ、より強力なレビューワークフロー、エコシステムが依存するオープンソース作業のサポートへの直接的な道筋を持てるようにする予定です。オープンソースメンテナーで興味がある場合は、お気軽にお問い合わせください。

開始方法

今後数日間でChatGPT Enterprise、Business、Eduの顧客にCodex Securityアクセスを展開します。チーム向けのCodex Securityの設定について詳しくは、ドキュメントをご確認ください。

付録

Codex Securityによって発見された高影響OSSの脆弱性の例:

  • GnuTLS certtool Heap-Buffer Overflow (Off-by-One) — CVE-2025-32990
  • GnuTLS Heap Buffer Overread in SCT Extension Parsing — CVE-2025-32989
  • GnuTLS Double-Free in otherName SAN Export — CVE-2025-32988
  • 2FA Bypass GOGS — CVE-2025-64175
  • Unauth bypass GOGS — CVE-2026-25242
  • Path traversal (arbitrary write) — download_ephemeral, download_children (agent) — CVE-2025-35430
  • LDAP injection (filters & DN) — LdapUserMap::new / get_unix_info / basic_auth_ldap — CVE-2025-35431
  • Unauthenticated DoS & mail abuse — resend_email_verification — CVE-2025-35432, CVE-2025-35436
  • Session not rotated on password change — User::update_user — CVE-2025-35433
  • Disabled TLS verification — Elasticsearch client — CVE-2025-35434
  • DoS: division by zero — /api/streams/depth/.../{split} — CVE-2025-35435
  • gpg-agent stack buffer overflow via PKDECRYPT --kem=CMS (ECC KEM) — CVE-2026-24881
  • Stack-based buffer overflow in TPM2 PKDECRYPT for RSA and ECC due to missing ciphertext length validation — CVE-2026-24882
  • CMS/PKCS7 AES-GCM ASN.1 params stack buffer overflow — CVE-2025-15467
  • PKCS#12 PBMAC1 PBKDF2 keyLength overflow + MAC bypass — CVE-2025-11187