ClaudeOpenAI News2026/03/25 0:00

Introducing the OpenAI Safety Bug Bounty program

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

claudejamodel: claude-sonnet-4-20250514

OpenAI Safety Bug Bountyプログラムの開始

Key Points

  • AI乱用・安全性リスク特化のバグバウンティプログラム開始
  • エージェント型攻撃とプロンプトインジェクションが主要対象
  • 従来のセキュリティ脆弱性基準外の問題も報酬対象

Summary

OpenAIが2026年3月25日、AI乱用と安全性リスクの特定に焦点を当てた新しいSafety Bug Bountyプログラムを開始しました。このプログラムは既存のSecurity Bug Bountyを補完し、従来のセキュリティ脆弱性の基準を満たさないが、実質的な乱用や安全性リスクをもたらす問題を対象とします。

Key Points

  • 対象範囲: エージェント型リスク(MCP含む)、第三者プロンプトインジェクション、データ流出、OpenAI独自情報の漏洩、アカウント・プラットフォーム整合性の問題
  • エージェント型攻撃: 攻撃者のテキストが被害者のエージェント(Browser、ChatGPT Agentなど)を乗っ取り、有害な行動や機密情報漏洩を引き起こす問題(再現率50%以上)
  • 除外項目: 一般的なジェイルブレイク、検索エンジンで簡単に見つかる情報の取得、実証可能な安全性・乱用影響のないコンテンツポリシー回避
  • 特別プログラム: GPT-5やChatGPT Agentのバイオリスクなど、特定の害のタイプに焦点を当てたプライベートバグバウンティキャンペーンを定期的に実施

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

claudejamodel: claude-sonnet-4-20250514

OpenAI Safety Bug Bountyプログラムの導入

OpenAI Safety Bug Bountyプログラムの導入

OpenAI全体での安全性と悪用問題のテスト

本日、OpenAIは当社の製品全体でAIの悪用と安全性リスクを特定することに焦点を当てた公開Safety Bug Bounty⁠(新しいウィンドウで開きます)プログラムを開始します。AI技術が急速に進歩するにつれて、それが悪用される可能性のある方法も進化しています。私たちの目標は、具体的な害につながる可能性のある誤用や悪用に対して、システムを安全かつセキュアに保つことです。

この新しいプログラムは、セキュリティ脆弱性の基準を満たさない場合でも、意味のある悪用と安全性リスクをもたらす問題を受け入れることで、OpenAIのSecurity Bug Bounty⁠(新しいウィンドウで開きます)を補完します。

このプログラムを通じて、従来のセキュリティ脆弱性の範囲外にあるが、依然として実際のリスクをもたらす問題の特定と対処を支援してくれる安全性とセキュリティの研究者との継続的なパートナーシップを楽しみにしています。

提出された報告は、OpenAIのSafetyおよびSecurity Bug Bountyチームによってトリアージされ、範囲と所有権に応じて2つのプログラム間で再ルーティングされる場合があります。

プログラム概要

新しいSafety Bug Bounty⁠(新しいウィンドウで開きます)プログラムは、以下に記載されたAI固有の安全性シナリオに焦点を当てています:

Agentic Risks(MCPを含む)

  • 第三者プロンプトインジェクションとデータ流出:攻撃者のテキストが被害者のエージェント(Browser、ChatGPT Agent、および類似のエージェント製品を含む)を確実にハイジャックし、有害な行動を実行させたり、ユーザーの機密情報を漏洩させたりできる場合。この動作は少なくとも50%の確率で再現可能でなければなりません。
  • エージェント型OpenAI製品がOpenAIのウェブサイト上で大規模に禁止された行動を実行する。
  • エージェント型OpenAI製品が上記に記載されていない潜在的に有害な行動を実行する。ここでの有効な報告は、もっともらしく重大な害を示す必要があります。
  • MCPリスクのテストは、第三者の利用規約に準拠する必要があります。

OpenAI独自情報

  • 推論に関連する独自情報を返すモデル生成。
  • その他のOpenAI独自情報を露出する脆弱性。

アカウントとプラットフォームの整合性

  • アカウント整合性とプラットフォーム整合性シグナルの脆弱性。自動化防止制御の回避、アカウント信頼シグナルの操作、アカウント制限/停止/禁止の回避、および類似の問題など。
  • ユーザーが許可された権限を超えて機能、データ、または機能にアクセスできる問題は、Security Bug Bounty⁠(新しいウィンドウで開きます)に報告する必要があります。

ジェイルブレイクはこのプログラムの範囲外ですが、ChatGPT AgentおよびGPT‑5でのBioriskコンテンツ問題など、特定の害のタイプに焦点を当てたプライベートバグバウンティキャンペーンを定期的に実施しています。これらのプログラムが発生した際には、興味のある研究者の応募をお待ちしています。

上記のカテゴリ以外でも、研究者がユーザーへの直接的な害への道筋を促進し、実行可能で具体的な修復手順を持つ欠陥を特定した場合、これらはケースバイケースで報酬の対象として検討される場合があります。

実証可能な安全性や悪用への影響のない一般的なコンテンツポリシー回避は、このプログラムの範囲外です。例えば、モデルが失礼な言葉を使用したり、検索エンジンで簡単に見つけられる情報を返したりする「ジェイルブレイク」は範囲外です。

参加方法

参加に興味のある研究者は、Safety Bug Bounty⁠(新しいウィンドウで開きます)プログラムを通じて応募できます。

安全なAIエコシステムの追求において、研究者、倫理的ハッカー、安全性とセキュリティコミュニティと協力できることを楽しみにしています。


2026年 著者:OpenAI

関連記事

  • 開発者が10代向けのより安全なAI体験を構築するための支援 - Safety - 2026年3月24日
  • Soraを使った安全な創作 - Safety - 2026年3月23日
  • 内部コーディングエージェントの不整合を監視する方法 - Safety - 2026年3月19日