ClaudeOpenAI NewsMar 25, 2026, 12:00 AM

Introducing the OpenAI Safety Bug Bounty program

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

claudeenmodel: claude-sonnet-4-20250514

OpenAI Launches Safety Bug Bounty Program for AI Abuse and Safety Risks

Key Points

  • New Safety Bug Bounty program launched targeting AI abuse risks
  • Focus on agentic risks, prompt injection, and platform integrity
  • Complements existing security program with safety-specific scope

Summary

OpenAI has launched a public Safety Bug Bounty program on March 25, 2026, specifically targeting AI abuse and safety risks across their products. This program complements their existing Security Bug Bounty by focusing on safety issues that may not qualify as traditional security vulnerabilities but still pose real risks.

Key Points

  • Agentic Risks: Third-party prompt injection, data exfiltration, and unauthorized actions by OpenAI agents (including Browser, ChatGPT Agent) with 50%+ reproducibility requirement
  • Proprietary Information: Model generations exposing reasoning-related proprietary information and other OpenAI confidential data
  • Platform Integrity: Account manipulation, bypassing anti-automation controls, evading restrictions, and unauthorized access to features
  • Exclusions: General jailbreaks and content-policy bypasses without demonstrable safety impact are out of scope
  • Private Campaigns: Periodic focused bug bounty programs for specific harm types like biorisk content in ChatGPT Agent and GPT-5

Participation

Researchers can apply through the Safety Bug Bounty program portal. Reports are triaged by Safety and Security teams and may be rerouted between programs based on scope.

Full Translation

Translations

A translation section that keeps the flow of the original article.

claudejamodel: claude-sonnet-4-20250514

OpenAI Safety Bug Bountyプログラムの導入

OpenAI Safety Bug Bountyプログラムの導入

OpenAI全体での安全性と悪用問題のテスト

本日、OpenAIは当社の製品全体でAIの悪用と安全性リスクを特定することに焦点を当てた公開Safety Bug Bounty⁠(新しいウィンドウで開きます)プログラムを開始します。AI技術が急速に進歩するにつれて、それが悪用される可能性のある方法も進化しています。私たちの目標は、具体的な害につながる可能性のある誤用や悪用に対して、システムを安全かつセキュアに保つことです。

この新しいプログラムは、セキュリティ脆弱性の基準を満たさない場合でも、意味のある悪用と安全性リスクをもたらす問題を受け入れることで、OpenAIのSecurity Bug Bounty⁠(新しいウィンドウで開きます)を補完します。

このプログラムを通じて、従来のセキュリティ脆弱性の範囲外にあるが、依然として実際のリスクをもたらす問題の特定と対処を支援してくれる安全性とセキュリティの研究者との継続的なパートナーシップを楽しみにしています。

提出された報告は、OpenAIのSafetyおよびSecurity Bug Bountyチームによってトリアージされ、範囲と所有権に応じて2つのプログラム間で再ルーティングされる場合があります。

プログラム概要

新しいSafety Bug Bounty⁠(新しいウィンドウで開きます)プログラムは、以下に記載されたAI固有の安全性シナリオに焦点を当てています:

Agentic Risks(MCPを含む)

  • 第三者プロンプトインジェクションとデータ流出:攻撃者のテキストが被害者のエージェント(Browser、ChatGPT Agent、および類似のエージェント製品を含む)を確実にハイジャックし、有害な行動を実行させたり、ユーザーの機密情報を漏洩させたりできる場合。この動作は少なくとも50%の確率で再現可能でなければなりません。
  • エージェント型OpenAI製品がOpenAIのウェブサイト上で大規模に禁止された行動を実行する。
  • エージェント型OpenAI製品が上記に記載されていない潜在的に有害な行動を実行する。ここでの有効な報告は、もっともらしく重大な害を示す必要があります。
  • MCPリスクのテストは、第三者の利用規約に準拠する必要があります。

OpenAI独自情報

  • 推論に関連する独自情報を返すモデル生成。
  • その他のOpenAI独自情報を露出する脆弱性。

アカウントとプラットフォームの整合性

  • アカウント整合性とプラットフォーム整合性シグナルの脆弱性。自動化防止制御の回避、アカウント信頼シグナルの操作、アカウント制限/停止/禁止の回避、および類似の問題など。
  • ユーザーが許可された権限を超えて機能、データ、または機能にアクセスできる問題は、Security Bug Bounty⁠(新しいウィンドウで開きます)に報告する必要があります。

ジェイルブレイクはこのプログラムの範囲外ですが、ChatGPT AgentおよびGPT‑5でのBioriskコンテンツ問題など、特定の害のタイプに焦点を当てたプライベートバグバウンティキャンペーンを定期的に実施しています。これらのプログラムが発生した際には、興味のある研究者の応募をお待ちしています。

上記のカテゴリ以外でも、研究者がユーザーへの直接的な害への道筋を促進し、実行可能で具体的な修復手順を持つ欠陥を特定した場合、これらはケースバイケースで報酬の対象として検討される場合があります。

実証可能な安全性や悪用への影響のない一般的なコンテンツポリシー回避は、このプログラムの範囲外です。例えば、モデルが失礼な言葉を使用したり、検索エンジンで簡単に見つけられる情報を返したりする「ジェイルブレイク」は範囲外です。

参加方法

参加に興味のある研究者は、Safety Bug Bounty⁠(新しいウィンドウで開きます)プログラムを通じて応募できます。

安全なAIエコシステムの追求において、研究者、倫理的ハッカー、安全性とセキュリティコミュニティと協力できることを楽しみにしています。


2026年 著者:OpenAI

関連記事

  • 開発者が10代向けのより安全なAI体験を構築するための支援 - Safety - 2026年3月24日
  • Soraを使った安全な創作 - Safety - 2026年3月23日
  • 内部コーディングエージェントの不整合を監視する方法 - Safety - 2026年3月19日