ISO/IEC 25012:2008 — SQuaRE 数据质量模型

软件工程 — SQuaRE — 数据质量模型

ISO/IEC 25012 标准概述

ISO/IEC 25012解决了软件质量中一个常被忽视的关键维度:数据本身的质量。随着组织越来越依赖数据驱动决策、机器学习和商业智能,底层数据的质量变得至关重要。低质量的数据会导致有缺陷的分析、错误的业务决策和监管不合规。该标准定义了一个数据质量模型,将质量属性分为十五个特性,从固有和系统依赖两个互补视角进行审视。

数据生命周期通常比软件生命周期更长。软件可能每几年被替换一次,而关键数据可以持续数十年——使数据质量成为长期战略关注点,而不仅仅是项目层面的问题。发现较晚的数据质量问题修复成本极高。

该标准认识到数据质量影响所有在计算机系统和用户之间交换、处理和使用的信息技术项目。多个因素推动了对系统性数据质量管理的需求:从质量流程未知或薄弱的外部组织获取数据、缺陷数据导致不满意的结果、数据分散在多个具有不一致语义的所有者和系统中,以及必须互操作的遗留系统和现代系统的共存。数据质量模型为应对这些挑战提供了结构化的框架。

十五个数据质量特性

ISO/IEC 25012根据是从固有视角、系统依赖视角还是两者兼有,将数据质量特性分为三组:

视角 特性 描述
仅固有 准确性、完整性、一致性、可信性、时效性 与数据本身相关——其值、关系和业务规则
固有与系统依赖 可访问性、合规性、保密性、效率、精度、可追溯性、可理解性 取决于数据内容和计算机系统的能力
仅系统依赖 可用性、可移植性、可恢复性 通过硬件、软件和基础设施能力实现

固有数据质量

固有数据质量指数据无论存储在什么系统都能满足需求的内在潜力。准确性包括语法准确性(值符合域规则,如”Mary”而非”Marj”)和语义准确性(值正确表示现实世界实体,如正确的人对应正确的姓名)。完整性衡量每个实体实例的所有预期属性是否都有值。一致性确保数据在相关实体之间没有矛盾。可信性捕捉用户认为数据真实可信的程度,通常与数据来源的可信度相关。时效性解决数据在其情境中是否具有合适的时效——铁路时刻表必须以足够的频率更新才能保持有用。

针对每个特性,该标准提供了实用的度量示例。记录字段语法准确性被衡量为语法准确记录与总记录的比率——任何数据团队都可以立即实施的简单而强大的质量度量。

系统依赖数据质量

系统依赖数据质量取决于技术领域和基础设施。可用性确保授权用户和应用程序在需要时能够检索数据,包括在并发访问和备份等维护操作期间。可移植性解决在系统之间安装、替换或移动数据同时保持现有质量的能力。可恢复性确保在故障后可以通过提交/同步点机制、回滚能力和备份恢复过程来恢复数据。这些特性受到架构决策和基础设施投资的重大影响。

工程设计洞见

从工程角度来看,ISO/IEC 25012为数据密集型系统设计提供了几个关键洞见。该标准的双视角分类尤其有价值,因为它将数据内容问题与基础设施问题分开——两个需要根本不同解决方案和技能集的问题领域。数据工程师可以使用这种分类来适当地分配责任:业务领域专家负责固有质量,而IT基础设施团队负责系统依赖质量。

一个常见的错误是将所有数据质量问题视为数据清洗问题。固有质量问题如不准确或不一致通常需要特定领域的业务规则、验证逻辑和流程改进。系统依赖问题如可用性差或可恢复性弱则需要基础设施投资、架构变更和冗余规划——根本不同的修复策略。

该标准为每个特性提供了具体的度量示例。保密性可以通过加密覆盖率作为固有度量来衡量,通过渗透测试成功率作为系统依赖度量来衡量。效率可以通过比较实际存储使用与优化基准来衡量。合规性特性在受监管行业中尤其重要:该标准为固有合规性(数据内容符合GDPR或HIPAA等法规)和系统依赖合规性(确保法规符合性的技术架构)提供了单独的度量。这一区别直接映射到现实世界中的合规实施挑战。

从实践角度来看,该标准的度量框架使组织能够为每个特性建立量化质量目标,随时间监控这些目标,并通过清晰的指标推动数据质量改进计划。实施数据治理计划的组织会发现十五特性模型为定义其数据质量维度和建立度量基线提供了极好的检查清单。

常见问题解答

问1:固有数据质量和系统依赖数据质量有什么区别?
答:固有数据质量指数据的内在属性——其值、准确性和一致性,与系统无关。系统依赖数据质量取决于存储和处理数据的计算机系统的能力。
问2:ISO/IEC 25012如何与ISO/IEC 25010关联?
答:25012定义了数据质量模型,而25010定义了ICT产品的产品质量模型。数据既是其自身质量模型(25012)的目标,也是25010涵盖的ICT产品的组成部分。
问3:这些数据质量特性可以定量测量吗?
答:可以。该标准为每个特性提供了示例度量,通常表示为比率(如准确记录/总记录)或计数(如不合格项的数量)。
问4:该标准涵盖哪些类型的数据?
答:涵盖以结构化格式保存在计算机系统中的数据,包括所有数据类型(字符串、数字、日期、图像、声音)和数据之间的关系。不包括未保留用于处理的嵌入式设备或实时传感器数据。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注