Helping ChatGPT better recognize context in sensitive conversations

openaijamodel: gpt-5-mini-2025-08-07

センシティブな会話における文脈をChatGPTがより正確に認識できるようにする

May 14, 2026 — Safety

People come to ChatGPT every day to talk about what matters to them—from everyday questions to more personal or complex conversations. Across hundreds of millions of interactions, some of these conversations include people who are struggling or experiencing distress. We design our systems to respond carefully in these moments, including by providing crisis resources and connecting people with someone they trust when needed.

概要

本日の更新では、ChatGPTが会話の経過で徐々に現れる微妙な手がかりを認識し、その文脈に基づいて安全に応答できるようにするための新しいセーフティ改善について詳細を共有します。これにより、日常的で安全なやり取りと、より慎重な対応が必要な稀なケースを区別できるようになり、例えば以下のように対応します。

エスカレーションの抑制（de-escalating）
有害な詳細の提供を拒否する
より安全な代替案へ誘導する

これらの改善は、モデル訓練、評価、モニタリング体制、および精神保健や安全領域の専門家との2年以上にわたる協働に基づいています。

なぜ文脈がセンシティブなのか

センシティブな会話では、単一のメッセージと同じくらい文脈が重要になることがあります。単独では曖昧または問題なさそうに見える要求でも、以前のやり取りに表れた苦悩や有害な意図の兆候と組み合わせて見ると、まったく異なる意味を持つ場合があります。適切に応答するため、ChatGPTは周囲の文脈から潜在的な有害意図を認識し、要求を拒否したり、落ち着かせたり、支援につなげたりできるよう訓練しています。こうしたケースは稀ですが、正確に扱うことが極めて重要です。

我々の目標は、日常的な会話で過剰に反応することなく、必要な場合に関連する信号を結び付けられるようにすることです。本取り組みは自殺、自傷、第三者への害（harm-to-others）といった急性のシナリオに焦点を当てています。

会話全体を通じた安全性の改善

ある安全上のリスクは、別々の会話をまたいで現れることがあります。1つの会話ではわずかな兆候しかなく、別の会話の要求が、以前の文脈と組み合わせて初めて懸念を引き起こす場合があります。前の文脈がなければ、後の会話は無害に見えてしまい、重要な警告サインが見逃される可能性があります。

このため、我々は「セーフティサマリー（safety summaries）」を開発しました。これは、まれで高リスクな状況で関連する可能性のある、以前の安全関連文脈についての短く事実に基づくメモです。特徴は以下のとおりです。

セーフティ推論タスク用に訓練されたモデルが作成する
事実に基づく安全関連の文脈のみを記録する
範囲は限定的で、保存期間は短い
深刻な安全上の懸念に関連するときにのみ使用される
一般的なパーソナライズや長期メモリとして使われないよう設計されている

また、ChatGPTがこれらの文脈をより慎重に利用できるよう訓練し、会話の途中で有害性の兆候が現れたときに注意を強め、例えばエスカレーションの抑制、詳細提供の拒否、より安全な代替案への誘導などの適切な応答ができるようにしました。

この取り組みは、部分的に「safe completion approach」に基づいており、ユーザー要求の危険な部分を拒否し、安全に行える範囲で慎重に応答することを目的としています。

精神保健の専門家との協働

我々はGlobal Physicians Networkの精神保健の専門家（精神科医や臨床心理士、法心理学、自殺予防、自傷に関する専門知識を持つ専門家を含む）と共同でこれらのシステムを開発しました。専門家は、いつセーフティサマリーを作成すべきか、どの程度の過去の文脈が関連し得るか、どれくらいの期間モデルがその文脈を参照すべきか、などの判断に助言しました。彼らの知見は現実世界の専門性に基づいたより適切な応答設計の支えとなっています。

改善の測定

これらの更新により、ChatGPTは会話内外で徐々に現れる潜在的な有害意図のパターンをより良く認識できるようになりました。懸念のシグナルが徐々に顕在化する場合でも、モデルはそのパターンを捉え、安全に応答する可能性が高くなっています。

内部評価（困難なケースでの性能を測るために特別に設計）では、リスクが時間とともに明確になるシナリオで安全応答が著しく改善しました。主な結果は次のとおりです。

長い単一会話シナリオにおいて：自殺・自傷ケースで安全応答のパフォーマンスが50%改善、harm-to-othersケースで16%改善
複数の会話にまたがるテストおよび複数モデルでの評価：モデルが進化しても改善効果が維持されることを確認
GPT‑5.5 Instant（ChatGPTの現在のデフォルトモデル）では：harm-to-othersで52%改善、自殺・自傷で39%改善

セーフティサマリー自体の品質評価も行いました。4,000件以上の評価で、平均の安全関連性スコアは4.93/5、事実性スコアは4.34/5であり、重要な安全文脈に焦点を当て概ね正確であることが示されました。

また、この安全コンテキストの追加が日常的な会話の品質を低下させるかを検証しましたが、内部テストでは、セーフティサマリーの有無で日常会話における応答の好みに有意な差は見られず、応答の品質は概ね同等でした。

今後の展望

時間をかけて明らかになるリスクをAIが認識することは難しく長期的な課題です。シグナルは微妙で、複数のメッセージに散らばり、普通の会話の中に埋もれることがあります。我々は引き続き、これら稀だが重要な瞬間を特定して適切に応答する能力を改善していきます。

現時点では自傷および第三者への害に焦点を当てていますが、将来的には生物学やサイバーセキュリティなど他のハイリスク領域で同様の方法が役立つかを、慎重なセーフガードの下で検討する可能性があります。本取り組みは継続的な優先課題であり、モデルと理解が進化するにつれてセーフガードを強化していきます。

参考・関連情報

Read more about our safety and mental health work:

Our Commitment to Community Safety
Introducing Trusted Contact in ChatGPT
Strengthening ChatGPT’s Responses in Sensitive Conversations

2026 ChatGPT — Author: OpenAI

Summary