OpenAIOpenAI NewsMar 24, 2026, 11:00 AM

Helping developers build safer AI experiences for teens

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Prompt-based teen safety policies for gpt-oss-safeguard

Key Points

  • Prompt-based teen safety policies released
  • Designed for gpt-oss-safeguard and open-weight models
  • Published open source for adaptation and collaboration

Summary

OpenAI released a set of prompt-formatted teen safety policies designed to work with the open-weight safety model gpt-oss-safeguard. The policies translate teen-specific risks into operational prompts that can be used as classifiers for real-time content filtering or offline analysis. They were developed with input from external experts (Common Sense Media, everyone.ai) and are published open source via the ROOST Model Community to encourage adaptation and collaboration.

Key Points

  • Contents covered: graphic violent content, graphic sexual content, harmful body ideals/behaviors, dangerous activities/challenges, romantic/violent roleplay, and age-restricted goods/services.
  • Format & usage: policies are delivered as prompts that can be run with gpt-oss-safeguard and other reasoning models for consistent classification; suitable for both real-time filtering and batch analysis.
  • Practical guidance: adapt policies to your product context, combine with product-level safeguards (age checks, parental controls, monitoring, teen-friendly transparency), and iterate on thresholds and edge cases.
  • Collaboration and extensibility: released open source on the ROOST Model Community/GitHub; community contributions and localization encouraged.
  • Not a complete solution: treat these as a starting point—implement layered defenses and evaluate behavior in your specific UX and user population.
  • Getting started: download gpt-oss-safeguard from Hugging Face, integrate prompt policies as classifiers, test across teen-focused scenarios, and log/monitor performance and false positives.

Implementation notes

  • Use the prompt templates as rule-defining classifiers, not as a single safety gate; combine outputs with deterministic checks and product rules.
  • Run A/B or staged rollouts to measure false positives/negatives for teen audiences and adjust thresholds.
  • Maintain a feedback loop with moderation and user reporting to refine prompts and broaden covered risk areas.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

開発者がティーン向けのより安全なAI体験を構築する手助け

概要

2026年3月24日 — 本日、ティーン向けの保護を年齢に応じて実装しやすくするための「プロンプト形式のティーン安全ポリシー」を公開します。これらはオープンウェイトのセーフティモデルである gpt-oss-safeguard と連携するよう設計されており、開発者が安全要件を実用的な分類器に変換する作業を簡素化します。

背景

私たちは強力なAIへのアクセスを民主化するためにオープンウェイトモデルを公開しました。同時に、安全性とイノベーションは両立すべきであり、開発者が有能なモデルだけでなく、それらを安全かつ責任を持って導入するためのツールとポリシーを利用できることが重要だと考えています。

この取り組みの一環として、OpenAIのモデルの意図する振る舞いを定義するガイドラインである Model Spec を更新し、Under-18 (U18) principles を含めました。また、ペアレンタルコントロールや年齢推定といった製品レベルの保護策も導入し、若年ユーザーの保護を強化しています。業界全体への保護を呼びかける Teen Safety Blueprint も発表しています。本日の公開は、これらの基盤の上に構築されたものです。

ティーン安全を明確で使いやすいポリシーへ翻訳する

gpt-oss-safeguard のような安全分類器は有害なコンテンツを検出できますが、その正確な動作は「何が有害か」を明確に定義することに依存します。実務上、開発者が直面する最大の課題の一つは、ティーン特有のリスクを正確に捉え、実システムで一貫して適用できるポリシーを定義することです。高レベルの安全目標を、専門知識と深いAI知識の両方を必要とする正確で運用可能なルールに落とし込むのは容易ではなく、保護の抜けや一貫性のない運用、あるいは過度に広範なフィルタリングにつながることがあります。

明確で適切に範囲が定められたポリシーは、効果的な安全システムの重要な基盤です。

開発者がティーン安全を運用化するために

この課題に対応するため、ティーンが直面しやすい一般的リスクに合わせ、若年の発達上の違いに関する既存研究を慎重にレビューして得た知見を反映した一連の安全ポリシーを公開します。これらのポリシーはプロンプトとして構成されており、gpt-oss-safeguard や他の推論モデルに直接使用できるため、開発者はシステム全体で一貫した安全基準を適用しやすくなります。

初期リリースには以下のポリシーが含まれます:

  • グラフィックな暴力コンテンツ(Graphic violent content)
  • グラフィックな性的コンテンツ(Graphic sexual content)
  • 有害な身体観や行動(Harmful body ideals and behaviors)
  • 危険な行為やチャレンジ(Dangerous activities and challenges)
  • 恋愛的または暴力的なロールプレイ(Romantic or violent roleplay)
  • 年齢制限のある商品やサービス(Age-restricted goods and services)

これらのポリシーはリアルタイムのコンテンツフィルタリングだけでなく、ユーザー生成コンテンツのオフライン解析にも使用できます。ポリシーをプロンプト形式で構造化することで、既存ワークフローへの統合、ユースケースへの適応、継続的な改善が容易になります。

外部専門家の意見を踏まえて開発

このポリシー策定には、Common Sense Media や everyone.ai を含む外部組織と協力しました。彼らの専門知見は、カバーすべきコンテンツの範囲を形作り、プロンプトの構造を強化し、評価時に考慮すべきエッジケースの精緻化に役立ちました。これは専門家やエコシステム全体と協働して、AIシステムが若年層をどのように支援するかを改善していく継続的な取り組みを反映しています。

「ティーン向けAI安全の最大のギャップの一つは、開発者がそこから構築できる明確で運用可能なポリシーが欠如していることでした。多くの場合、開発者はゼロから始めています。これらのプロンプトベースのポリシーは、エコシステム全体で有意義な安全の最低基準を設定するのに役立ちますし、オープンソースで公開されるため、時間とともに適応・改善が可能です。このような基盤が広く利用可能になることは励みになりますし、業界全体でより共有された若年者保護の出発点を促進することを期待しています。」

— Robbie Torney、Common Sense Media、Head of AI & Digital Assessments

「このように若年者安全ポリシーをより運用的にする取り組みは、専門家の知見を実際のシステムで利用可能なガイダンスへ翻訳するために価値があります。コンテンツポリシーは重要な第一歩であり、同時にモデルの振る舞いが時間とともに若年層に関連するリスクをどのように形成するかについてのより広い作業への扉を開きます。私たちの研究にも触発され、everyone.ai は排他性や過度の依存といったリスクに焦点を当てた初期の行動ポリシーも作成しました。」

— Dr. Mathilde Cerioli、everyone.AI、Chief Scientist

出発点であり完全解ではない

これらのポリシーは出発点として設計されており、包括的または最終的なティーン安全の定義や保証を意味するものではありません。各アプリケーションには固有のリスク、利用者層、文脈があり、製品やAI統合がもたらすリスクを最もよく理解しているのは開発者自身です。開発者には、これらのポリシーを自らのニーズに合わせて適応・拡張し、製品設計上の決定、ユーザーコントロール、ティーン向けの分かりやすい透明性、監視システム、年齢に応じた適切な応答など、他の保護策と組み合わせることを強く推奨します。

私たちは、層状の防御(defense in depth)アプローチがより安全なAIシステム構築に不可欠だと考えています。これらのポリシーは OpenAI の内部方針や保護策の全てを表すものではありません。

今後の展開

これらのポリシーは ROOST Model Community を通じてオープンソースで公開し、協働と反復を促進します。寄稿、フィードバック、追加のティーン安全ポリシーの共有は RMC GitHub repository をご覧ください。開発者や組織はこれらのポリシーを自分たちのアプリケーションに合わせて適応し、他言語へ翻訳し、追加のリスク領域をカバーするよう拡張できます。時間とともに、これがAIシステムにおける安全ポリシー実装のためのより堅牢で共有された基盤へと寄与することを期待しています。

  • gpt-oss-safeguard の利用を始めるには、Hugging Face からダウンロードしてください。
  • ポリシーはリアルタイムフィルタリングとオフライン解析の両方に使用可能です。

関連記事(続き)

  • Creating with Sora safely — Safety Mar 23, 2026
  • How we monitor internal coding agents for misalignment — Safety Mar 19, 2026
  • OpenAI Japan announces Japan Teen Safety Blueprint to put teen safety first — Safety Mar 17, 2026

以上。