Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC 25012解决了软件质量中一个常被忽视的关键维度:数据本身的质量。随着组织越来越依赖数据驱动决策、机器学习和商业智能,底层数据的质量变得至关重要。低质量的数据会导致有缺陷的分析、错误的业务决策和监管不合规。该标准定义了一个数据质量模型,将质量属性分为十五个特性,从固有和系统依赖两个互补视角进行审视。
该标准认识到数据质量影响所有在计算机系统和用户之间交换、处理和使用的信息技术项目。多个因素推动了对系统性数据质量管理的需求:从质量流程未知或薄弱的外部组织获取数据、缺陷数据导致不满意的结果、数据分散在多个具有不一致语义的所有者和系统中,以及必须互操作的遗留系统和现代系统的共存。数据质量模型为应对这些挑战提供了结构化的框架。
ISO/IEC 25012根据是从固有视角、系统依赖视角还是两者兼有,将数据质量特性分为三组:
| 视角 | 特性 | 描述 |
|---|---|---|
| 仅固有 | 准确性、完整性、一致性、可信性、时效性 | 与数据本身相关——其值、关系和业务规则 |
| 固有与系统依赖 | 可访问性、合规性、保密性、效率、精度、可追溯性、可理解性 | 取决于数据内容和计算机系统的能力 |
| 仅系统依赖 | 可用性、可移植性、可恢复性 | 通过硬件、软件和基础设施能力实现 |
固有数据质量指数据无论存储在什么系统都能满足需求的内在潜力。准确性包括语法准确性(值符合域规则,如”Mary”而非”Marj”)和语义准确性(值正确表示现实世界实体,如正确的人对应正确的姓名)。完整性衡量每个实体实例的所有预期属性是否都有值。一致性确保数据在相关实体之间没有矛盾。可信性捕捉用户认为数据真实可信的程度,通常与数据来源的可信度相关。时效性解决数据在其情境中是否具有合适的时效——铁路时刻表必须以足够的频率更新才能保持有用。
系统依赖数据质量取决于技术领域和基础设施。可用性确保授权用户和应用程序在需要时能够检索数据,包括在并发访问和备份等维护操作期间。可移植性解决在系统之间安装、替换或移动数据同时保持现有质量的能力。可恢复性确保在故障后可以通过提交/同步点机制、回滚能力和备份恢复过程来恢复数据。这些特性受到架构决策和基础设施投资的重大影响。
从工程角度来看,ISO/IEC 25012为数据密集型系统设计提供了几个关键洞见。该标准的双视角分类尤其有价值,因为它将数据内容问题与基础设施问题分开——两个需要根本不同解决方案和技能集的问题领域。数据工程师可以使用这种分类来适当地分配责任:业务领域专家负责固有质量,而IT基础设施团队负责系统依赖质量。
该标准为每个特性提供了具体的度量示例。保密性可以通过加密覆盖率作为固有度量来衡量,通过渗透测试成功率作为系统依赖度量来衡量。效率可以通过比较实际存储使用与优化基准来衡量。合规性特性在受监管行业中尤其重要:该标准为固有合规性(数据内容符合GDPR或HIPAA等法规)和系统依赖合规性(确保法规符合性的技术架构)提供了单独的度量。这一区别直接映射到现实世界中的合规实施挑战。
从实践角度来看,该标准的度量框架使组织能够为每个特性建立量化质量目标,随时间监控这些目标,并通过清晰的指标推动数据质量改进计划。实施数据治理计划的组织会发现十五特性模型为定义其数据质量维度和建立度量基线提供了极好的检查清单。