OpenAIOpenAI NewsApr 28, 2026, 12:00 AM

Our commitment to community safety

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Our commitment to community safety

Key Points

  • automated + human review for risk detection
  • zero‑tolerance enforcement and escalation
  • parental controls and crisis referrals

Summary

OpenAI describes how ChatGPT is trained and operated to reduce real‑world violence and harm. The approach combines model-level refusals, automated risk detection across conversations, contextual human review, escalation protocols (including law enforcement when imminent risk is detected), enforcement actions (account bans and access revocation), and support/referral for users in crisis. The post also highlights parental controls, an upcoming trusted‑contact feature, and ongoing model improvements guided by external experts.

Key Points

  • Model behavior: systems trained to maximize helpfulness while refusing requests that could meaningfully enable violence; allow factual/educational discussion while omitting operational details.
  • Detection stack: automated classifiers, reasoning models, hash‑matching, blocklists and behavior signals analyze content and patterns across long conversations.
  • Human review: flagged content is assessed in context by trained reviewers with limited, secure access to user data; reviewers apply structured criteria to determine risk and next steps.
  • Enforcement: zero‑tolerance for using tools to assist violence — immediate account disablement, cross‑account blocking, and steps to detect new accounts; users may appeal decisions.
  • Escalation: higher‑risk cases undergo deeper investigation; imminent, credible threats trigger law enforcement notification; mental‑health experts inform referral criteria.
  • User support features: localized crisis resources surfaced in conversations, parental controls linking parent/teen accounts (no parental access to messages), and a forthcoming trusted‑contact option for adults.
  • Engineering implications: combine signal types, prioritize longitudinal context, enforce strong privacy controls for reviewers, maintain robust escalation workflows, and iterate with expert feedback.

For more detail, refer to the Model Spec and the Usage Policies linked in the original post.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

コミュニティの安全に対する取り組み

コミュニティの安全に対する取り組み

銃乱射、公共職の関係者への脅迫、爆破未遂、個人やコミュニティへの攻撃は、現代において受け入れられない重大な現実です。これらの事件は、暴力の脅威がどれほど現実的であるか、そして暴力的な意図が言葉から行動へどれほど素早く移り得るかを思い起こさせます。人々はこうした瞬間や感情をChatGPTに持ち込むことがあります。ニュースについて質問したり、何が起きたのか理解しようとしたり、恐怖や怒りを表現したり、暴力をフィクション、歴史、政治、個人の文脈、あるいは潜在的に危険な形で語ったりします。

私たちは、ChatGPTがその違いを見分け、会話が脅迫、他者への潜在的な危害、または現実世界での計画に向かい始めたときに線引きできるよう訓練しています。本稿では、当社のサービスが暴力やその他の害の助長に使われることを最小化するために行っている取り組み:モデルが安全に応答するように訓練する方法、潜在的な危険を検知するシステム、ポリシー違反があった場合の対応について説明します。私たちは、心理学者、精神科医、市民的自由と法執行の専門家など、さまざまな専門家からの助言に基づいて、安全性、プライバシー、民主化されたアクセスに関する難しい判断を導きつつ、保護策を継続的に改善しています。

ChatGPTでの危害リスク軽減

当社のModel Specは、モデルの振る舞いに関する長年の原則を示しており、助けになることと利用者の自由を最大化しつつ、合理的なデフォルトで害のリスクを最小化することを目指しています。私たちは、暴力を実行するための具体的な指示、戦術、計画を実質的に可能にする要求を拒否するようモデルを訓練しています。

同時に、事実確認、歴史、教育、予防の観点から中立的に暴力について尋ねられることはあり、それらの議論を許容しつつ、安全境界を維持することを目指しています。例えば、害を助長し得る詳細な実務的指示は省く、という対応です。善意の利用と有害な利用の境界は微妙になることがあり、私たちはアプローチを継続的に精緻化し、専門家と協働して安全な範囲の応答と現実世界での行為を助長する実行可能な手順を区別しています。

また、より長く重大度の高い会話において、微妙なリスクの兆候をより正確に認識できるように安全対策を拡張してきました。単一のメッセージでは無害に見えても、長い会話内や複数の会話にまたがるパターンが懸念を示すことがあります。モデル訓練、評価やレッドチーミング、専門家からの継続的な助言に基づき、長期的・高リスクの会話での微妙な警告サインを認識して慎重に応答する能力を強化しました。今後数週間でこの取り組みについてさらに共有します。

私たちの安全活動は、自傷のおそれや心理的に困窮している可能性のある利用者に対しても及びます。こうした瞬間においては、有害な行為を助長しないことに加え、状況のエスカレーションを避け、実世界での支援につなげることが目的です。ChatGPTは地域別の危機支援リソースを提示し、メンタルヘルスの専門家や信頼できる家族・友人に連絡することを促し、最も深刻な場合には緊急の支援を求めるよう案内します。

ルールの監視と執行方法

私たちは利用者を信頼していますが、誰かが暴力を計画・実行するために当社のツールを使おうとしていると検知した場合は、OpenAIのサービスへのアクセスを取り消すなどの対応を行います。Usage Policiesは、脅迫、威圧、嫌がらせ、テロ行為や暴力、兵器開発、違法行為、財産やシステムの破壊、保護策の回避などを理由に利用を禁止できることを明確にしています。これらのポリシーを重く受け止め、厳格に執行するために努めています。

自動検知システムを用いて、大規模に潜在的な懸念行為を特定します。これらのシステムは、分類器(classifiers)、推論モデル、ハッシュ照合技術、ブロックリスト、その他の監視システムを含む多様なツールを使ってユーザーのコンテンツや行動を分析し、ポリシー違反や有害行為の兆候を検出します。

アカウントや会話がフラグ付けされた場合、訓練を受けた担当者が文脈を踏まえて評価します。これらの人間のレビュアーはポリシーと手順に基づく訓練を受けており、プライバシーとセキュリティの既定の下で活動します。つまりユーザー情報へのアクセスは制限され、安全なシステム内で行われ、機密保持およびデータ保護の要件に従います。レビュアーの役割は、問題となったやり取りの内容、前後の会話、長期的な行動パターンなどの文脈を評価することです。この文脈的レビューは重要であり、自動システムが意図や微妙な差異を十分に捕らえられない場合があるため、適切な判断を下すために行われます。

フラグの評価では、ポリシー違反や利用者が暴力を実行する可能性を示すか、より詳細な人間による審査にエスカレーションする必要があるか、あるいは低リスク・違反なしとして扱うかを判断します。重大な違反と判断した場合は、OpenAIのサービスへのアクセスを即時に取り消すことを目指します。具体的にはアカウントの無効化、当該利用者の別アカウントの禁止、新規アカウント作成の検出と阻止などが含まれます。暴力に関する当社の方針はゼロトレランスです。

利用者は執行決定に対して異議申し立て(appeal)が可能であり、当社はそれらの申し立てを精査して結果を確認します。多くの執行措置(暴力に対する禁止措置を含む)はOpenAIと利用者の間で完結し、越えた線を明確に示します。しかし、敏感なケースでは支援に適切な第三者へ連絡することがあります。潜在的に深刻な現実世界での被害を示す指標があると判断した場合は、より詳細な調査にエスカレーションし、構造化された基準で総合的なリスク評価を行います。この段階は限られたケースに適用され、追加の文脈と専門知識をもって高リスクシナリオを評価することを目的としています。

会話が他者への差し迫ったかつ信頼できる危害のリスクを示す場合、法執行機関に通報します。精神医療や行動の専門家が難しいケースの評価を支援し、利用者がChatGPT内で標的、手段、時期を明確に述べていない場合でも差し迫った・信頼できる暴力のリスクが存在する可能性を考慮して通報基準は柔軟に運用されます。

家族向けの機能と信頼できる連絡先

昨年秋にParental Controlsを導入し、家庭でChatGPTをどう使うかを家族が管理できるようにしました。Parental Controlsでは、親が自分のアカウントとティーンのアカウントをリンクし、安全で年齢に適した体験のための設定をカスタマイズできます。親が子どもの会話にアクセスすることはありません。ごく稀にシステムや訓練されたレビュアーが急性の困窮の兆候を検出した場合に限り、親に通知されることがありますが、その際もティーンの安全を支援するために必要な情報のみが共有されます。親への通知は、メール、SMS、プッシュ通知、あるいはこれらすべてで自動的に行われます。

当社のCouncil on Well-Being and AIやGlobal Physicians Networkの専門家と緊密に協力し、成人ユーザーが支援を必要とする可能性がある場合に通知を受け取る「trusted contact」機能をまもなく導入する予定です。

学び、改善し、軌道修正する

当社はモデル、検知手法、レビュープロセス、エスカレーション基準を、観察された利用状況、新たに浮上するリスク、社内外の専門家の助言に応じて強化し続けています。特に難しいケースに注力しています。例えば、入力が正当なものか危害のリスクがあるものか判別が難しい場合、保護策を巧妙に回避しようとする試み、あるいは利用者が繰り返しサービスを誤用しようとする場合などです。

私たちは安全性を最優先しつつ、プライバシーやその他の市民的自由とのバランスを図り、深刻なリスクに対して適切に対応できるよう努めます。

参考と関連情報

  • 当社の安全に関する取り組みとコミットメントの詳細については、当社の公開資料をご参照ください。
  • 強化中の取り組み例:
    • Strengthening ChatGPT’s responses in sensitive conversations
    • Our approach to age prediction
    • Updating our Model Spec with teen protections
    • Introducing parental controls
    • ChatGPT 2026 User Safety & Control

著者: OpenAI

関連投稿: GPT-5.5 System Card(Safety, Apr 23, 2026)、GPT-5.5 Bio Bug Bounty(Safety, Apr 23, 2026)、Accelerating the cyber defense ecosystem that protects us all(Security, Apr 16, 2026)