OpenAI Privacy Filter の紹介 | OpenAI News

claudejamodel: claude-haiku-4-5

OpenAI Privacy Filterの紹介

テキスト内の個人識別情報（PII）をマスキングするための最先端モデル

本日、OpenAI Privacy Filterをリリースします。これはテキスト内の個人識別情報（PII）を検出および編集するためのオープンウェイトモデルです。このリリースは、開発者がAIを安全に構築するための実用的なインフラストラクチャを提供することで、より回復力のあるソフトウェアエコシステムをサポートするという、より広範な取り組みの一部です。

Privacy Filterは、最先端の個人データ検出機能を備えた小規模モデルです。高スループットのプライバシーワークフロー向けに設計されており、非構造化テキスト内のPIIのコンテキスト認識検出が可能です。ローカルで実行できるため、PIIはマシンを離れることなくマスキングまたは編集できます。長い入力を効率的に処理し、迅速な単一パスで編集決定を行います。

OpenAIでは、独自のプライバシー保護ワークフローでPrivacy Filterの微調整版を使用しています。最新のAI機能により、市場に既にあるものを超えてプライバシーの標準を引き上げることができると考え、Privacy Filterを開発しました。本日リリースするPrivacy Filterのバージョンは、評価中に特定した注釈の問題を修正した場合、PII-Masking-300kベンチマークで最先端のパフォーマンスを達成しています。

このリリースにより、開発者は独自の環境でPrivacy Filterを実行し、独自のユースケースに合わせて微調整し、トレーニング、インデックス作成、ロギング、およびレビューパイプラインにより強力なプライバシー保護を構築できます。

最先端の個人データ検出機能を備えた小規模モデル

最新のAIシステムにおけるプライバシー保護は、パターンマッチング以上のものに依存しています。従来のPII検出ツールは、電話番号やメールアドレスなどの形式に対して決定論的ルールに依存することが多いです。狭いケースではうまく機能しますが、より微妙な個人情報を見落とし、コンテキストに対応するのに苦労することがよくあります。

Privacy Filterは、より細かいパフォーマンスのために、より深い言語とコンテキスト認識で構築されています。強力な言語理解とプライバシー固有のラベリングシステムを組み合わせることで、非構造化テキスト内のより広い範囲のPIIを検出できます。これには、正しい決定がコンテキストに依存するケースも含まれます。公開されているため保持すべき情報と、プライベート個人に関連するためマスキングまたは編集すべき情報をより適切に区別できます。

その結果、最先端レベルのプライバシーフィルタリングパフォーマンスを提供するのに十分な強力なモデルが実現しました。同時に、モデルは十分に小さいため、ローカルで実行できます。つまり、まだフィルタリングされていないデータはデバイス上に留まり、サーバーに送信して識別解除する必要がなく、露出のリスクが低くなります。

モデルの概要

Privacy Filterは、スパンデコーディングを備えた双方向トークン分類モデルです。自己回帰事前学習チェックポイントから開始し、プライバシーラベルの固定分類法にわたってトークン分類器に適応されます。テキストをトークンごとに生成する代わりに、入力シーケンスを1回のパスでラベル付けし、制約付きViterbi手順で一貫性のあるスパンをデコードします。

このアーキテクチャにより、Privacy Filterは本番環境での使用に有用な特性をいくつか備えています：

高速で効率的：すべてのトークンは単一の前方パスでラベル付けされます
コンテキスト認識：言語事前学習により、周囲のコンテキストに基づいてPIIスパンを検出できます
長いコンテキスト：リリースされたモデルは最大128,000トークンのコンテキストをサポートします
設定可能：開発者はワークフローに応じて再現率と精度をトレードオフするために動作ポイントを調整できます

リリースされたモデルは、合計1.5Bパラメータで5000万のアクティブパラメータを持っています。

ラベルカテゴリ

Privacy Filterは8つのカテゴリ全体でスパンを予測します：

private_person
private_address
private_email
private_phone
private_url
private_date
account_number
secret

account_numberカテゴリは、クレジットカード番号や銀行口座番号などの銀行情報を含む、さまざまな口座番号をマスキングするのに役立ちます。一方、secretはパスワードやAPIキーなどをマスキングするのに役立ちます。これらのラベルはBIOESスパンタグでデコードされ、より清潔で一貫性のあるマスキング境界を生成するのに役立ちます。

使用例

入力テキスト

Subject: Q2 Planning Follow-Up

Hi Jordan,

Thanks again for meeting earlier today. I wanted to follow up with the revised timeline for the Q2 rollout and confirm that the product launch is scheduled for September 18, 2026. For reference, the project file is listed under 4829-1037-5581. If anything changes on your side, feel free to reply here at maya.chen@example.com or call me at +1 (415) 555-0124.

Best,
Maya Chen

個人識別子をマスキングした後のテキスト

Subject: Q2 Planning Follow-Up

Hi [PRIVATE_PERSON],

Thanks again for meeting earlier today. I wanted to follow up with the revised timeline for the Q2 rollout and confirm that the product launch is scheduled for [PRIVATE_DATE]. For reference, the project file is listed under [ACCOUNT_NUMBER]. If anything changes on your side, feel free to reply here at [PRIVATE_EMAIL] or call me at [PRIVATE_PHONE].

Best,
[PRIVATE_PERSON]

構築方法

Privacy Filterを複数の段階で開発しました。

第1段階：モデルが検出すべきスパンのタイプを定義するプライバシー分類法を構築しました。これには、個人識別子、連絡先詳細、住所、プライベート日付、クレジットおよび銀行情報などの多くの異なる種類の口座番号、およびAPIキーやパスワードなどのシークレットが含まれます。

第2段階：言語モデリングヘッドをトークン分類ヘッドに置き換え、教師あり分類目的で事後学習することにより、事前学習された言語モデルを双方向トークン分類器に変換しました。

第3段階：現実的なテキストと困難なプライバシーパターンの両方をキャプチャするように設計された、公開されているデータと合成データの混合で学習しました。ラベルが不完全な公開データの部分では、モデル支援注釈とレビューを使用してカバレッジを改善しました。また、形式、コンテキスト、およびプライバシーサブタイプ全体の多様性を増やすために合成例を生成しました。

推論時には、モデルのトークンレベルの予測は、制約付きシーケンスデコーディングを使用して一貫性のあるスパンにデコードされます。このアプローチは、事前学習されたモデルの広い言語理解を保持しながら、プライバシー検出に特化させます。

Privacy Filterのパフォーマンス

標準ベンチマークおよび、より困難でコンテキストに敏感なケースをテストするために設計された追加の合成およびチャットスタイルの評価でPrivacy Filterを評価しました。

PII-Masking-300kベンチマークでは、Privacy FilterはF1スコア96%（精度94.04%、再現率98.04%）を達成しています。レビュー中に特定されたデータセット注釈の問題を考慮した修正版ベンチマークでは、F1スコアは97.43%（精度96.79%、再現率98.08%）です。

また、モデルは効率的に適応できることがわかりました。少量のデータでの微調整でも、ドメイン固有のタスクの精度が迅速に向上し、F1スコアが54%から96%に増加し、評価したドメイン適応ベンチマークで飽和に近づきます。

ベンチマークパフォーマンスを超えて、Privacy Filterはノイズの多い実世界のテキストでの実用的なプライバシーフィルタリング向けに設計されています。これには、長いドキュメント、曖昧な参照、混合形式の文字列、およびソフトウェア関連のシークレットが含まれます。モデルカードは、コードベースのシークレット検出に対する対象評価と、多言語、敵対的、およびコンテキスト依存の例全体のストレステストも報告しています。

制限事項

Privacy Filterは、匿名化ツール、コンプライアンス認証、または高リスク設定でのポリシーレビューの代替ではありません。これは、より広範なプライバシーバイデザインシステムの1つのコンポーネントです。その動作は、学習したラベル分類法と決定境界を反映しています。異なる組織は異なる検出またはマスキングポリシーを望む場合があり、それらのポリシーはドメイン内評価またはさらなる微調整を必要とする場合があります。

パフォーマンスは、言語、スクリプト、命名規則、およびトレーニング分布と異なるドメイン全体で異なる場合があります。すべてのモデルと同様に、Privacy Filterは間違いを犯す可能性があります。一般的でない識別子または曖昧なプライベート参照を見落とす可能性があり、特に短いシーケンスではコンテキストが限定されている場合、エンティティを過度に編集または編集不足にする可能性があります。

法律、医療、財務ワークフローなどの高感度ドメインでは、人間によるレビューとドメイン固有の評価および微調整が引き続き重要です。

利用可能性

OpenAI Privacy Filterをリリースして、エコシステム全体でより強力なプライバシー保護をサポートしています。モデルは本日、Apache 2.0ライセンスの下でHugging FaceおよびGithubで利用可能です。実験、カスタマイズ、および商用展開を目的としており、異なるデータ分布とプライバシーポリシーに合わせて微調整できます。

モデルと共に、モデルアーキテクチャ、ラベル分類法、デコーディング制御、意図された使用例、評価セットアップ、および既知の制限をカバーするドキュメントを共有しており、チームはモデルが何をうまく行うか、どこで慎重に使用すべきかを理解できます。

今後の展開

AIシステムのプライバシー保護は、研究、製品設計、評価、および展開全体にわたる継続的な取り組みです。Privacy Filterは、私たちが重要だと考える1つの方向を反映しています。実世界のAIシステムにとって重要な狭く定義されたタスクで最先端の機能を備えた小規模で効率的なモデルです。プライバシー保護インフラストラクチャはより検査、実行、適応、改善しやすくなるべきだと考えているため、これをリリースしています。

私たちの目標は、モデルが世界について学ぶことであり、プライベート個人について学ぶことではありません。Privacy Filterはそれを可能にするのに役立ちます。

Privacy Filterのこのプレビューをリリースして、研究およびプライバシーコミュニティからのフィードバックを受け取り、モデルパフォーマンスをさらに反復します。

Introducing OpenAI Privacy Filter

要約

Summary

Key Points

翻訳