OpenAI Privacy Filter の紹介

openaijamodel: gpt-5-mini-2025-08-07

本日、私たちは OpenAI Privacy Filter を公開しました。これはテキスト中の個人を特定できる情報（PII: personally identifiable information）を検出・編集するためのオープンウェイト（open-weight）モデルです。本リリースは、AI を安全に活用するための実用的なインフラ（ツールやモデル）を提供し、プライバシーとセキュリティの強化を容易にするための取り組みの一部です。

Privacy Filter は最先端の個人データ検出能力を備えた小型モデルです。高スループットなプライバシーワークフロー向けに設計されており、非構造化テキスト内の文脈依存の PII を検出してマスク／編集できます。ローカルで実行できるため、PII を機械の外に送信することなくその場でマスク・削除できます。また長文を効率的に処理し、単一パスで高速に編集判断を行います。

OpenAI ではプライバシー保護ワークフローの一部として、ファインチューニングした Privacy Filter を内部で利用しています。最新の AI 能力を用いれば既存の市場標準を超えるプライバシー基準を実現できると考え、本モデルを開発しました。今回公開するバージョンは、評価時に我々が特定したアノテーション問題を補正した上で、PII-Masking-300k ベンチマークにおいて最先端の性能を達成しています。

このリリースにより、開発者は自身の環境で Privacy Filter を実行し、ユースケースに合わせてファインチューニングを行い、トレーニング、インデクシング、ログ、レビューのパイプラインに強力なプライバシー保護を組み込めます。

小型ながら最先端の個人データ検出能力

現代の AI システムにおけるプライバシー保護は、単なるパターンマッチング以上のものを必要とします。従来の PII 検出ツールは電話番号やメールアドレスといったフォーマットに対する決定論的ルールに依存することが多く、狭いケースでは有効ですが、文脈に依存する微妙な個人情報や曖昧な表現を見落としやすいという課題があります。

Privacy Filter は言語理解と文脈認識を深めることで、より幅広い PII を非構造化テキストから検出できます。公開情報として保持すべき情報と、プライベート個人に関連するためマスク／編集すべき情報を文脈に応じてより正確に区別できます。その結果、最先端のプライバシーフィルタリング性能を達成すると同時に、ローカル実行が可能な小型モデルとしてデータがデバイス外へ出るリスクを低減します。

モデル概要

Privacy Filter はスパンデコーディングを備えた双方向トークン分類（bidirectional token-classification）モデルとして構成されています。最初に autoregressive pretrained checkpoint から始め、固定のプライバシーラベル分類タクソノミーに対するトークンクラス分類器に適応させています。テキストをトークン単位で逐次生成するのではなく、入力系列を一度にラベル付けしてから、制約付き Viterbi 手法（constrained Viterbi procedure）で意味の通ったスパンをデコードします。

このアーキテクチャにより、Privacy Filter は本番環境で便利ないくつかの特性を得ています：

高速かつ効率的: すべてのトークンが単一の順伝播でラベル付けされます。
文脈認識: 言語事前知識により、周囲の文脈に基づいて PII スパンを検出できます。
長コンテキスト: リリースされたモデルは最大 128,000 トークンのコンテキストをサポートします。
設定可能: ワークフローに応じて再現率と適合率をトレードオフするための動作点を調整できます。

リリースモデルは合計 1.5B パラメータ、うち 50M がアクティブパラメータです。

Privacy Filter は以下 8 カテゴリのスパンを予測します：

private_person
private_address
private_email
private_phone
private_url
private_date
account_number
secret

account_number カテゴリはクレジットカード番号や銀行口座番号を含むさまざまな口座番号をマスクするのに役立ち、secret はパスワードや API キーなどのシークレットをマスクします。これらのラベルは BIOES スパンタグでデコードされ、よりクリーンで一貫したマスキング境界の生成に寄与します。

例

入力テキスト

Subject: Q2 Planning Follow-Up

Hi Jordan,

Thanks again for meeting earlier today. I wanted to follow up with the revised timeline for the Q2 rollout and confirm that the product launch is scheduled for September 18, 2026. For reference, the project file is listed under 4829-1037-5581. If anything changes on your side, feel free to reply here at maya.chen@example.com or call me at +1 (415) 555-0124.

Best, Maya Chen

個人識別子をマスクした後のテキスト

Subject: Q2 Planning Follow-Up

Hi [PRIVATE_PERSON],

Thanks again for meeting earlier today. I wanted to follow up with the revised timeline for the Q2 rollout and confirm that the product launch is scheduled for [PRIVATE_DATE]. For reference, the project file is listed under [ACCOUNT_NUMBER]. If anything changes on your side, feel free to reply here at [PRIVATE_EMAIL] or call me at [PRIVATE_PHONE].

Best, [PRIVATE_PERSON]

どのように構築したか

まず、モデルが検出すべきスパンの種類を定義するプライバシータクソノミーを構築しました。これには個人識別子、連絡先、住所、プライベートな日付、クレジットや銀行情報など多様な口座番号、API キーやパスワードのようなシークレットが含まれます。
次に、事前学習済み言語モデルの言語モデリングヘッドをトークン分類ヘッドに置き換え、双方向トークン分類器へと変換し、監視付き分類目的でポストトレーニングしました。
その後、現実的なテキストと困難なプライバシーパターンの両方を捉えるため、公開データと合成データの混合で学習しました。公開データの一部でラベルが不完全だった箇所には、モデル支援のアノテーションとレビューを行いカバレッジを改善しました。また、フォーマット、文脈、プライバシーサブタイプの多様性を増すために合成例を生成しました。

推論時には、モデルのトークンレベル予測を制約付きシーケンスデコーディングで一貫したスパンに変換します。このアプローチにより、事前学習モデルの広範な言語理解を保持しつつプライバシー検出へと特化させています。

Privacy Filter の性能

Privacy Filter は標準ベンチマークと、より文脈依存で難易度の高い合成・チャット形式の評価を用いて評価しました。PII-Masking-300k ベンチマークでは F1 = 96%（Precision = 94.04%、Recall = 98.04%）を達成しました。評価中に特定したデータセットのアノテーション問題を補正した修正版では、F1 = 97.43%（Precision = 96.79%、Recall = 98.08%）です。

また、モデルは効率的に適応可能であることが分かりました。少量のデータでファインチューニングを行うだけでドメイン固有タスクの精度が急速に改善し、あるドメイン適応ベンチマークでは F1 が 54% から 96% まで向上して飽和に近づきました。

ベンチマーク性能に加え、Privacy Filter は長文、曖昧な参照、混在フォーマットの文字列、ソフトウェア関連のシークレットといったノイズの多い実世界のテキストでの実用的なプライバシーフィルタリングを念頭に設計されています。モデルカード（model card）ではコードベースにおけるシークレット検出や多言語・敵対的・文脈依存のストレステストに関する評価も報告しています。

制限事項

Privacy Filter は匿名化ツールでもなく、コンプライアンス認証の代替でもなく、高リスクの状況でのポリシー審査の代替にはなりません。これはより大きなプライバシー・バイ・デザインのシステムの一部として使うべきコンポーネントです。モデルの振る舞いは学習に使ったラベルタクソノミーと決定境界を反映します。組織によっては異なる検出やマスキングポリシーを望む場合があり、その場合はドメイン内評価や追加のファインチューニングが必要です。

言語、スクリプト、命名規則、学習分布と異なるドメインに対しては性能が変動する可能性があります。他のモデル同様、Privacy Filter も誤りを犯すことがあり、稀な識別子や曖昧な参照を見落としたり、文脈が限定的な短いシーケンスでは過剰／過少に編集する場合があります。法務、医療、金融など高感度ドメインでは、人間によるレビューとドメイン特有の評価・ファインチューニングが重要です。

入手方法

OpenAI Privacy Filter はエコシステム全体でより強固なプライバシー保護を支援するために公開します。モデルは Apache 2.0 ライセンスの下で Hugging Face（opens in a new window）および Github（opens in a new window）で本日利用可能です。実験、カスタマイズ、商用展開を想定しており、異なるデータ分布やプライバシーポリシー向けにファインチューニングできます。

モデルと合わせて、モデルアーキテクチャ、ラベルタクソノミー、デコーディング制御、想定ユースケース、評価設定、既知の制限事項をカバーするドキュメントを公開しています。これにより、チームはモデルの得意な点と注意して使うべき場面を理解できます。

今後の展望

AI システムにおけるプライバシー保護は、研究、プロダクト設計、評価、デプロイを跨ぐ継続的な取り組みです。Privacy Filter は私たちが重要だと考えるひとつの方向性を示しています：現実の AI システムで重要となる狭義のタスクに対して、大きな能力を持ちながらも小型で効率的なモデルを提供することです。

私たちは、プライバシー保護インフラがより検査しやすく、実行しやすく、適応しやすく、改善しやすいものであるべきだと考えています。モデルが世界について学ぶことは許しても、個人のプライベートな情報を学習して保持するべきではありません。Privacy Filter はその実現を助けます。本プレビュー版は研究・プライバシーコミュニティからのフィードバックを受け取り、モデル性能をさらに改善するために公開しています。

倫理と安全性

Privacy Filter の設計と公開は倫理と安全性に関する配慮のもとに行われていますが、使用に際しては上記の制限を考慮の上、適切なガバナンスと人間によるレビューを併用してください。

Author: OpenAI

PublishedAt: 2026-04-22T00:00:00.000Z

Introducing OpenAI Privacy Filter

要約

Summary

Key Points

Practical next steps for engineers

翻訳