OpenAI 開源 Privacy Filter 模型,強化 AI 隱私基礎設施
產品發布與授權資訊
OpenAI 於週二(4/22)正式發布了Privacy Filter,這是一款專為偵測並遮蔽個人可識別資訊(PII)設計的開放權重模型。該模型已於 Hugging Face 與 GitHub 平臺釋出,並採用Apache 2.0授權,允許開發者自由下載、部署與使用。
核心功能與技術特點
Privacy Filter 是一款具備前沿個人數據檢測能力的小型模型,專為高吞吐量的隱私處理工作流而設計。它能對非結構化文本中的 PII 進行上下文感知的偵測與處理。
- 辨識範圍:可辨識 8 種個資類型,包括姓名、地址、電子郵件、電話、網址、日期、帳號資訊與機密資料(如密碼與 API key)。
- 處理機制:透過序列標記與解碼機制,確保遮蔽後的資料能正確還原,同時保留語意完整性。
- 執行環境:支援本地端執行,讓企業可在資料送入 AI 前自動進行去識別化處理。
應用場景與限制
有了此模型,企業可應用於 RAG 前的資料清洗、Log 與訓練資料清理、以及受法規限制的跨境資料處理等場景。不過,OpenAI 也坦承在法律、醫療、金融等高機敏場域,仍需配合人工審查以確保萬無一失。
