Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC 27554:2022 建立了个人可识别信息(PII)去标识化的综合框架。在大数据分析、人工智能和开放数据共享的时代,组织必须平衡数据的实用性与个人的隐私权利。去标识化——即移除或修改 PII 以降低重识别风险的过程——是隐私保护数据实践的基石。该标准提供了一套涵盖整个去标识化生命周期的结构化方法论:策略制定、风险评估、技术选择、实施、重识别攻击测试和持续治理。与早期仅聚焦于技术匿名化技术的指导文件不同,ISO/IEC 27554 采取了整体性的方法,将组织政策、法律合规和技术控制视为强大去标识化计划的相互关联要素。该标准认识到去标识化不是二元状态(已识别 vs. 匿名),而是一个连续谱——即使是”匿名化”的数据集在与辅助数据源结合时也可能被重识别。
标准提供了一系列去标识化技术的详细技术规范,按其强度和可逆性分类。假名化用假名替换直接标识符(姓名、电子邮件地址、国民身份证号),但映射关系可能被保留,使其在受控条件下可逆。匿名化不可逆地转换数据,使得数据控制者或任何第三方都无法识别个人。涵盖的具体技术包括泛化(用更广泛的类别替换精确值)、抑制(完全移除标识值)、扰动(添加受控噪声)、k-匿名性(确保每条记录与至少 k-1 条其他记录不可区分)、l-多样性(确保匿名组内敏感属性的多样性)、t-接近性(确保匿名组中敏感属性的分布反映整体分布)以及差分隐私(向查询结果添加校准噪声)。每种技术都在数据效用和隐私保护之间提供了不同的权衡点,选择取决于具体的使用场景和风险承受能力。
| 技术 | 隐私级别 | 数据效用 | 可逆性 | 典型应用场景 |
|---|---|---|---|---|
| 假名化 | 低-中 | 高 | 可逆(通过映射) | 临床试验数据、用户分析 |
| 泛化 | 中 | 中-高 | 不可逆 | 人口普查数据、流行病学研究 |
| k-匿名 (k=5) | 中 | 中 | 不可逆 | 健康记录发布 |
| l-多样性 | 中-高 | 中 | 不可逆 | 含敏感诊断的医疗数据 |
| 差分隐私 (ε=1) | 高 | 低-中 | 不可逆 | 统计数据库、机器学习训练 |
| 扰动 | 中-高 | 中 | 不可逆 | 调查微数据、移动轨迹 |
ISO/IEC 27554 强调去标识化不仅是技术操作,还需要持续治理。标准要求:(1) 由高管层批准的去标识化政策,定义角色、职责和升级程序;(2) 在任何数据发布前进行的重识别风险评估,考虑数据环境(公开发布、受信任研究者访问、内部使用)、辅助数据的可用性以及潜在攻击者的动机和能力;(3) 使用已知攻击方法(链接攻击、差分攻击、重构攻击)和针对特定数据集的对抗性测试进行的重识别攻击测试;(4) 数据披露审查委员会,根据残余重识别风险批准或拒绝数据发布请求;(5) 定期重新评估——当新的数据源公开可用或出现新的重识别技术时。标准提供了定量风险评分方法,平衡重识别概率与对受影响个人的潜在伤害,使组织能够为不同数据共享场景定义客观的风险阈值。