OpenAI Safety Bug Bounty プログラムの紹介

OpenAIは本日、製品全体にわたるAIの悪用や安全リスクを特定することに特化した公開の Safety Bug Bounty プログラムを開始します。AI技術が急速に進化するにつれて、悪用の可能性も変化します。私たちの目標は、実際の危害につながり得る誤用や悪用に対して、システムが安全かつ堅牢であることを確保することです。

この新しいプログラムは、Security Bug Bounty を補完するもので、セキュリティ脆弱性の基準を満たさない場合でも、重要な悪用・安全リスクをもたらす問題を受け付けます。本プログラムを通じて、従来のセキュリティ脆弱性の範疇外にあるが実際にリスクを伴う問題の特定と対処に、セーフティおよびセキュリティ研究者と引き続き協力していきます。

提出された報告はOpenAIのSafetyチームおよびSecurity Bug Bountyチームによってトリアージされ、範囲や所有権に応じて両プログラム間で振り分けられる場合があります。

プログラム概要

Safety Bug Bounty プログラムは、以下に挙げるAI固有の安全シナリオに重点を置きます。

エージェント型リスク（MCPを含む）

サードパーティのプロンプトインジェクションおよびデータの持ち出し（data exfiltration）:
- 攻撃者のテキストが被害者のエージェント（Browser、ChatGPT Agent、同様のエージェント型製品を含む）を確実にハイジャックし、有害な操作を実行させる、またはユーザーの機密情報を漏洩させるケース。
- 再現性は最低でも50%程度であることが求められます。
エージェント型のOpenAI製品がOpenAIのウェブサイト上でスケールに乗って許可されていない操作を実行するケース。
上に挙げたもの以外で、エージェント型OpenAI製品が潜在的に有害な操作を行うケース（有効な報告は、実行可能で重要な被害を示す必要があります）。

注: MCPリスクのテストを行う場合、第三者の利用規約に従う必要があります。

OpenAIの専有情報

推論に関連する専有情報を返すモデル生成。
他のOpenAI専有情報を露呈させる脆弱性。

アカウントおよびプラットフォーム整合性

反自動化制御の回避、アカウントの信頼シグナルの操作、アカウント制限／停止／禁止の回避など、アカウント整合性やプラットフォーム整合性シグナルに関する脆弱性。
ユーザーが認可されていない権限を超えて機能、データ、あるいは機能性にアクセスできるようにする問題は Security Bug Bounty に報告してください。

スコープ外の例と補足

一般的なコンテンツポリシーのバイパスで、安全性や悪用への影響が実証されないものは本プログラムの範囲外です。
- 例: モデルが下品な言葉を使用する、または検索エンジンで容易に見つかる情報を返すといった“jailbreak”は範囲外となります。
ただし、本プログラムで対象外となる「jailbreak」でも、特定の有害性タイプに焦点を当てたプライベートのバグバウンティキャンペーン（例: ChatGPT Agent と GPT‑5 における Biorisk コンテンツ問題）を定期的に実施しています。該当する場合、関心のある研究者はこれらのプログラムに応募してください。
上記のカテゴリ外でも、研究者がユーザー被害に直結する明確な経路を示し、実行可能で具体的な修正手順を提供できる欠陥を特定した場合は、個別に報酬の対象として検討されることがあります。

参加方法

研究者で参加を希望する方は、Safety Bug Bounty プログラムを通じて申請してください。私たちは、研究者、エシカルハッカー、セーフティおよびセキュリティコミュニティと協力し、安全なAIエコシステムの実現に向けて取り組むことを楽しみにしています。

著者: OpenAI

Introducing the OpenAI Safety Bug Bounty program

要約

Summary

Key Points