PII
个人身份信息姓名、身份证、手机号等敏感数据,进模型前要脱敏。
详解
PII(Personally Identifiable Information,个人身份信息)是指能够单独或与其他信息结合后识别出具体个人的数据,包括:姓名、身份证号、手机号、家庭住址、邮箱、银行卡号、IP 地址、人脸图像、设备标识符等。在 LLM 应用中,PII 泄漏风险来自两个方向:①用户不经意把 PII 粘贴进提示词,这些数据可能进入模型请求、日志、trace、缓存或供应商侧留存;如果平台政策或配置允许,还可能被用于模型改进。②模型输出、检索结果或工具调用结果可能把本不该展示的 PII 带给无权限用户。工程应对是在输入和输出两端做 PII 检测、脱敏与权限校验:结构化号码用正则,姓名地址等非结构化信息用 NER 或专用分类器,必要时只传占位符给模型。
一个类比
像医院的病历本——上面的内容可以给医生看用于诊断,但绝对不能贴在走廊公告栏上,也不能原封不动地输入进一个第三方系统里。在送出去之前,护士会先用贴纸把名字和身份证号盖掉,只留诊断相关的部分。AI 应用里的 PII 脱敏就是这张"贴纸"。
举个例子
用户输入:"帮我给张伟发一封催款邮件,他手机是 13812345678,身份证 310101199001011234" PII 脱敏后送入模型: "帮我给[姓名]发一封催款邮件,他手机是[手机号],身份证[身份证号]" 模型专注于生成邮件措辞,不接触真实 PII。 脱敏映射表保存在本地安全存储,仅在最终发送时替换回真实数据。 这样即使模型日志被泄漏,也不会暴露用户的真实隐私信息。
PYTHON 示例
相关概念
- → Guardrails· 护栏