Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC 27559 建立了一个结构化的个人可识别信息(PII)去标识化框架,为组织提供系统化的方法论,在降低隐私风险的同时保持数据在分析、研究和业务运营中的可用性。该标准认识到去标识化不是一个二元状态,而是一个风险降低的连续谱,需要在隐私保护程度和结果数据集的分析价值之间进行谨慎平衡。它涵盖了所有主要的去标识化技术,包括泛化、抑制、扰动和合成数据生成。
标准将去标识化技术分为多个类别,每类在隐私保护强度、数据可用性保持和计算复杂度方面具有不同的特征。选择适当的技术取决于特定的用例、数据类型和可接受的剩余风险水平。
| 技术 | 隐私机制 | 数据可用性影响 | 最佳用途 | 重标识风险 |
|---|---|---|---|---|
| 抑制 | 完全移除标识符 | 对分析影响最小 | 直接标识符(姓名、身份证号) | 全面处理时低 |
| 泛化 | 替换为更宽泛的类别 | 中等 — 降低粒度 | 准标识符(年龄、邮政编码) | 中等 |
| 扰动 | 添加统计噪声 | 对聚合数据中等偏高 | 数值数据、医疗测量值 | 噪声充足时低 |
| k-匿名 | 每条记录与 k-1 条不可区分 | 中等 | 结构化表格数据 | 低(同质性攻击时无效) |
| l-多样性 | 确保等价类内敏感值多样性 | 中高 | 分组中的敏感属性 | 非常低 |
| t-近似 | 属性分布匹配全局分布 | 高 | 偏斜的敏感属性 | 极小 |
| 差分隐私 | 通过校准噪声提供数学保证 | 高(取决于ε值) | 统计查询、机器学习训练 | 可证明极小 |
| 合成数据 | 从模型生成人工记录 | 可变(取决于模型) | 测试、开发、共享 | 生成良好时低 |
ISO/IEC 27559 规定了一种基于风险的方法,包含多个阶段。首先,组织必须进行重标识风险评估,识别所有潜在攻击者(动机明确的对手、好奇的内部人员、意外的重标识者)、他们的能力(辅助数据的可访问性、计算资源)以及所保护数据的敏感性。风险评估结果决定所需的去标识化强度。
标准引入的一个关键概念是去标识化治理委员会——由隐私官、数据科学家、法律顾问和业务利益相关方组成的跨职能团队,负责监督去标识化政策、审批技术选择、评审剩余风险的接受度并处理重标识事件。这种治理结构确保去标识化决策在适当的组织监督下进行,而非仅由技术团队自行决定。
标准强调去标识化并非永久状态。辅助数据可用性、链接技术和计算能力的进步可能随时间推移增加重标识风险。因此,ISO/IEC 27559 要求对已发布的去标识化数据集进行定期重新评估。它提供了监控重标识环境、跟踪已发布的重标识攻击方法,以及确定何时需要使用更强技术重新处理数据集的指南。建议组织维护一个带有风险评级、重新评估计划和数据集日落政策的去标识化数据清单。