PII

个人身份信息

姓名、身份证、手机号等敏感数据，进模型前要脱敏。

详解

PII（Personally Identifiable Information，个人身份信息）是指能够单独或与其他信息结合后识别出具体个人的数据，包括：姓名、身份证号、手机号、家庭住址、邮箱、银行卡号、IP 地址、人脸图像、设备标识符等。在 LLM 应用中，PII 泄漏风险来自两个方向：①用户不经意把 PII 粘贴进提示词，这些数据可能进入模型请求、日志、trace、缓存或供应商侧留存；如果平台政策或配置允许，还可能被用于模型改进。②模型输出、检索结果或工具调用结果可能把本不该展示的 PII 带给无权限用户。工程应对是在输入和输出两端做 PII 检测、脱敏与权限校验：结构化号码用正则，姓名地址等非结构化信息用 NER 或专用分类器，必要时只传占位符给模型。

一个类比

像医院的病历本——上面的内容可以给医生看用于诊断，但绝对不能贴在走廊公告栏上，也不能原封不动地输入进一个第三方系统里。在送出去之前，护士会先用贴纸把名字和身份证号盖掉，只留诊断相关的部分。AI 应用里的 PII 脱敏就是这张"贴纸"。

举个例子

用户输入："帮我给张伟发一封催款邮件，他手机是 13812345678，身份证 310101199001011234"

PII 脱敏后送入模型：
"帮我给[姓名]发一封催款邮件，他手机是[手机号]，身份证[身份证号]"

模型专注于生成邮件措辞，不接触真实 PII。
脱敏映射表保存在本地安全存储，仅在最终发送时替换回真实数据。
这样即使模型日志被泄漏，也不会暴露用户的真实隐私信息。

PYTHON 示例