安全
銃乱射事件、公務執行者への脅迫、爆弾テロ未遂、コミュニティと個人への攻撃は、今日の世界において受け入れがたく深刻な現実です。これらの事件は、暴力の脅威がいかに現実的であるか、そして暴力的な意図がいかに迅速に言葉から行動へと移行するかを思い起こさせます。
このような瞬間や感情はChatGPTにもたらされることがあります。ユーザーはニュースについて質問したり、何が起きたのかを理解しようとしたり、恐怖や怒りを表現したり、架空の、歴史的な、政治的な、個人的な、または潜在的に危険な方法で暴力について話したりすることがあります。
私たちはChatGPTを訓練して、その違いを認識し、会話が脅迫、他者への潜在的な危害、または現実世界での計画へと向かい始めるときに線引きを行うよう努めています。
私たちは、暴力またはその他の危害を助長するための当社サービスの使用を最小化するために行っていることを共有しています。モデルがどのように安全に応答するよう訓練されているか、当社のシステムがどのように潜在的な危害のリスクを検出するか、そして誰かが当社のポリシーに違反した場合に私たちがどのような措置を講じるかについてです。
私たちは、心理学者、精神科医、市民的自由と法執行の専門家、および安全、プライバシー、民主化されたアクセスに関する困難な決定をナビゲートするのに役立つ他の専門家からの意見に導かれながら、人々とコミュニティを保護するために講じるステップを継続的に改善しています。
ChatGPTにおける危害のリスク軽減方法
当社のModel Specは、当社がモデルにどのように動作してほしいかについての長年の原則を示しています。有用性とユーザーの自由を最大化しながら、分別のあるデフォルト設定を通じて危害のリスクを最小化することです。
私たちは、暴力を有意義に可能にする可能性のある指示、戦術、または計画のリクエストを拒否するようにモデルを訓練するために取り組んでいます。同時に、ユーザーは事実的、歴史的、教育的、または予防的な理由で暴力についての中立的な質問をすることがあり、私たちはそのような議論を許可しながら明確な安全境界を維持することを目指しています。例えば、危害を促進する可能性のある詳細で実行可能な指示を省略することによってです。
良性と有害な使用の間の線は微妙である可能性があるため、私たちは継続的にアプローチを改善し、専門家と協力して、安全で制限された応答と暴力またはその他の現実世界の危害を実行するための実行可能なステップを区別するのに役立てています。
この継続的な作業の一部として、私たちはChatGPTがさまざまなコンテキストにおける危害のリスクの微妙な兆候をより良く認識するのに役立つセーフガードを拡張し続けています。
いくつかの安全リスクは時間の経過とともにのみ明らかになります。単一のメッセージはそれ自体では無害に見えるかもしれませんが、長い会話内での、または複数の会話にわたるより広いパターンは、より懸念される何かを示唆する可能性があります。
モデル訓練、評価、レッドチーミング、および継続的な専門家の意見における数年の作業に基づいて、私たちはChatGPTが長く、高リスクの会話全体にわたって微妙な警告兆候を認識し、慎重に応答する方法を強化しました。この作業についての詳細は、今後数週間で共有します。
当社の安全作業は、ユーザーが苦痛を感じているか、自傷のリスクがある状況にも拡張されています。これらの瞬間に、当社の目標は有害な行為を促進することを避けることであり、また状況をエスカレーション解除し、人々を現実世界のサポートに導くことです。ChatGPTは地域化されたクライシスリソースを表示し、人々にメンタルヘルスの専門家または信頼できる愛する人に連絡することを促し、最も深刻なケースでは人々に緊急の助けを求めるよう指示します。
ルールの監視と実施方法
私たちはユーザーの最善を想定していますが、誰かが当社のツールを使用して潜在的に暴力を計画または実行しようとしていることを検出した場合、OpenAIのサービスへのアクセスを取り消すことを含む措置を講じます。
当社の利用ポリシーは、受け入れ可能な使用に関する明確な期待を設定し、脅迫、脅迫、嫌がらせ、テロ、暴力、兵器開発、違法行為、財産またはシステムの破壊、およびセーフガードの回避の試みに対する使用を禁止する可能性があることを示しています。
私たちはこれらのポリシーを真摯に受け止め、それらを実施するために懸命に取り組んでいます。
私たちは自動検出システムを使用して、潜在的に懸念される活動を大規模に特定します。これらのシステムは、分類器、推論モデル、ハッシュマッチング技術、ブロックリスト、およびその他の監視システムを含む、ポリシー違反または有害な活動を示す可能性のある信号を特定するために設計されたさまざまなツールを使用してユーザーコンテンツと動作を分析します。
アカウントまたは会話がフラグされた場合、訓練を受けた担当者によってコンテキストで評価されます。これらの人間レビュアーは当社のポリシーとプロトコルについて訓練を受けており、確立されたプライバシーとセキュリティセーフガード内で運営されています。つまり、ユーザー情報へのアクセスは制限され、セキュアなシステム内で実施され、機密保持およびデータ保護要件の対象となります。
彼らの役割は、相互作用のコンテンツ、周囲の会話、および時間の経過に伴う関連する行動パターンを含む、コンテキストでフラグされた活動を評価することです。自動システムは意図やニュアンスを完全に捉えることなく潜在的な懸念の信号を特定する可能性があるため、このコンテキスト的レビューは重要です。
目標は、フラグされた活動が当社のポリシーに違反しているか、ユーザーが暴力行為を実行する可能性があることを示しているか、より詳細な人間レビューのためのエスカレーションが必要か、または低リスクまたは非違反として却下または優先順位を下げることができるかを判断することです。
禁止可能な違反が発生したと判断した場合、私たちはOpenAIのサービスへのアクセスを直ちに取り消すことを目指しています。これには、アカウントの無効化、同じユーザーの他のアカウントの禁止、および新しいアカウントの開設の検出と停止のステップが含まれる可能性があります。
当社のツールを使用して暴力の実行を支援することに対する、ゼロトレランスポリシーがあります。
ユーザーは実施決定に異議を唱えることができ、私たちはそれらの異議を確認するためにレビューします。
現実世界のサポートの表示と法執行への照会
暴力に対する禁止を含むほとんどの実施措置は、OpenAIとユーザーの間で直接行われ、彼らが線を越えたことを明確にします。しかし、いくつかの機密ケースでは、私たちは支援するのに最適な立場にある他の人に連絡することがあります。
潜在的に深刻な現実世界の危害の指標を提示するケースと評価する場合、より詳細な調査のためにエスカレートされます。これには、構造化された基準を使用した全体的なリスクレベルの評価が含まれます。このステージは限定されたケースのサブセット用に予約されており、より高いリスクのシナリオが追加のコンテキストと専門知識で評価されることを保証することを目的としています。
会話が他者への危害の差し迫った信頼できるリスクを示す場合、私たちは法執行機関に通知します。メンタルヘルスと行動の専門家は、困難なケースを評価するのに役立ち、当社の照会基準は、ユーザーがChatGPT会話で計画された暴力のターゲット、手段、およびタイミングを明示的に議論しない可能性があるという事実を説明するために柔軟です。しかし、差し迫った信頼できる暴力の潜在的なリスクがまだある可能性があります。
昨年秋、私たちは保護者向けコントロールを導入して、家族がChatGPTが自宅でどのように機能するかをガイドするのに役立てました。保護者向けコントロールにより、保護者は自分のアカウントを十代の子どものアカウントにリンクし、安全で年齢に適した体験のための設定をカスタマイズできます。
保護者は十代の子どもの会話にアクセスできず、当社のシステムと訓練を受けた人間レビュアーが急性の苦痛の可能性のある兆候を検出する稀なケースでは、保護者は通知される可能性があります。ただし、十代の子どもの安全をサポートするために必要な情報のみです。保護者は、メール、SMS、プッシュ通知、またはすべての3つのいずれかで自動的に通知されます。
当社の幸福とAIに関する評議会および当社のグローバル医師ネットワークの専門家と密接に協力して、私たちはまた、信頼できる連絡先機能をまもなく導入します。これにより、成人ユーザーは、追加のサポートが必要な場合に通知を受け取る人を指定できます。
学習、改善、および方針転換
私たちは、観察された使用、新たなリスク、および内部および外部の専門家からの意見に応じて、モデル、検出方法、レビュープロセス、およびエスカレーション基準を継続的に強化しています。
私たちは特に困難なケースに焦点を当てています。例えば、特定の入力が正当であるか危害のリスクを提示するかが明確でない場合。セーフガードを回避するための洗練された試み。または人々が繰り返し当社のサービスを悪用しようとする場合です。
私たちは、プライバシーおよび他の市民的自由のバランスを取りながら、深刻なリスクに対応できるように、安全を優先し続けます。
当社の安全作業とコミットメントについて詳しく読むことができ、当社のポリシーに関する更新を受け取るためにサインアップできます。
関連記事