OpenAIOpenAI NewsMar 25, 2026, 12:00 AM

Introducing the OpenAI Safety Bug Bounty program

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Introducing the OpenAI Safety Bug Bounty program

Key Points

  • Public Safety Bug Bounty targets AI-specific abuse and safety risks
  • In-scope: agentic risks, proprietary leaks, and account/platform integrity
  • Reports triaged with 50% reproducibility requirement for agent hijacks

Summary

OpenAI launched a public Safety Bug Bounty program focused on identifying AI-specific safety and abuse risks that fall outside conventional security vulnerabilities. The program accepts reports on agentic risks (including third-party prompt injection and MCP), proprietary-information exposure, and account/platform integrity issues. Submissions are triaged by OpenAI’s Safety and Security Bug Bounty teams and may be routed between programs depending on ownership.

Key Points

  • Scope: in-scope categories include agentic risks (e.g., reliable agent hijacking, Browser and ChatGPT Agent behavior), third-party prompt injection and data exfiltration, exposure of OpenAI proprietary information, and vulnerabilities affecting account or platform integrity.
  • Reproducibility: agentic hijack/MC P reports must be reproducible at least 50% of the time and demonstrate plausible, material harm.
  • Triage & routing: reports are reviewed by Safety and Security teams and may be rerouted between the Safety and Security bounty programs based on scope.
  • Out-of-scope: general content-policy bypasses and jailbreaks that lack demonstrable safety/abuse impact (e.g., rude responses or easily searchable info) are not eligible; separate private campaigns may cover certain high-risk categories (e.g., biorisk).
  • Responsible testing: MCP and third-party tests must comply with third-party terms of service and follow responsible disclosure practices—do not perform unauthorized actions or escalate harm.
  • Report guidance for engineers and researchers: provide clear reproduction steps, PoC or test cases, success rate and scale, evidence (logs/screenshots), affected product(s), potential impact, and suggested mitigations to help triage and remediation.
  • How to participate: apply and submit findings through the Safety Bug Bounty program portal; OpenAI invites collaboration with researchers, ethical hackers, and the safety/security community.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

OpenAI Safety Bug Bounty プログラムの紹介

2026年3月25日 | 安全 | セキュリティ

OpenAI Safety Bug Bounty プログラムの紹介

OpenAIは本日、製品全体にわたるAIの悪用や安全リスクを特定することに特化した公開の Safety Bug Bounty プログラムを開始します。AI技術が急速に進化するにつれて、悪用の可能性も変化します。私たちの目標は、実際の危害につながり得る誤用や悪用に対して、システムが安全かつ堅牢であることを確保することです。

この新しいプログラムは、Security Bug Bounty を補完するもので、セキュリティ脆弱性の基準を満たさない場合でも、重要な悪用・安全リスクをもたらす問題を受け付けます。本プログラムを通じて、従来のセキュリティ脆弱性の範疇外にあるが実際にリスクを伴う問題の特定と対処に、セーフティおよびセキュリティ研究者と引き続き協力していきます。

提出された報告はOpenAIのSafetyチームおよびSecurity Bug Bountyチームによってトリアージされ、範囲や所有権に応じて両プログラム間で振り分けられる場合があります。

プログラム概要

Safety Bug Bounty プログラムは、以下に挙げるAI固有の安全シナリオに重点を置きます。

エージェント型リスク(MCPを含む)

  • サードパーティのプロンプトインジェクションおよびデータの持ち出し(data exfiltration):
    • 攻撃者のテキストが被害者のエージェント(Browser、ChatGPT Agent、同様のエージェント型製品を含む)を確実にハイジャックし、有害な操作を実行させる、またはユーザーの機密情報を漏洩させるケース。
    • 再現性は最低でも50%程度であることが求められます。
  • エージェント型のOpenAI製品がOpenAIのウェブサイト上でスケールに乗って許可されていない操作を実行するケース。
  • 上に挙げたもの以外で、エージェント型OpenAI製品が潜在的に有害な操作を行うケース(有効な報告は、実行可能で重要な被害を示す必要があります)。

注: MCPリスクのテストを行う場合、第三者の利用規約に従う必要があります。

OpenAIの専有情報

  • 推論に関連する専有情報を返すモデル生成。
  • 他のOpenAI専有情報を露呈させる脆弱性。

アカウントおよびプラットフォーム整合性

  • 反自動化制御の回避、アカウントの信頼シグナルの操作、アカウント制限/停止/禁止の回避など、アカウント整合性やプラットフォーム整合性シグナルに関する脆弱性。
  • ユーザーが認可されていない権限を超えて機能、データ、あるいは機能性にアクセスできるようにする問題は Security Bug Bounty に報告してください。

スコープ外の例と補足

  • 一般的なコンテンツポリシーのバイパスで、安全性や悪用への影響が実証されないものは本プログラムの範囲外です。
    • 例: モデルが下品な言葉を使用する、または検索エンジンで容易に見つかる情報を返すといった“jailbreak”は範囲外となります。
  • ただし、本プログラムで対象外となる「jailbreak」でも、特定の有害性タイプに焦点を当てたプライベートのバグバウンティキャンペーン(例: ChatGPT Agent と GPT‑5 における Biorisk コンテンツ問題)を定期的に実施しています。該当する場合、関心のある研究者はこれらのプログラムに応募してください。
  • 上記のカテゴリ外でも、研究者がユーザー被害に直結する明確な経路を示し、実行可能で具体的な修正手順を提供できる欠陥を特定した場合は、個別に報酬の対象として検討されることがあります。

参加方法

研究者で参加を希望する方は、Safety Bug Bounty プログラムを通じて申請してください。私たちは、研究者、エシカルハッカー、セーフティおよびセキュリティコミュニティと協力し、安全なAIエコシステムの実現に向けて取り組むことを楽しみにしています。


著者: OpenAI

関連投稿:

  • 開発者がティーン向けにより安全なAI体験を構築する手助け (Safety) — 2026年3月24日
  • Soraを安全に使って創作する方法 (Safety) — 2026年3月23日
  • 内部コーディングエージェントの不整合をどのように監視しているか (Safety) — 2026年3月19日