Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC 25024:2015 填补了软件质量管理中的一个关键空白——数据质量的系统化度量。ISO/IEC 25023 侧重于系统和软件产品质量,而 25024 为数据提供了专门的质量度量,其结构基于 ISO/IEC 25012 中定义的 15 个数据质量特性:准确性、完备性、一致性、可信性、时效性、可访问性、合规性、保密性、效率、精确性、可追溯性、可理解性、可用性、可移植性和可恢复性。
该标准引入了双视角度量方法:”固有”数据质量关注数据本身(其值、域约束和关系),而”系统依赖”数据质量则关注计算机系统组件(硬件、系统软件)如何影响数据质量。这种双重视角对于理解数据质量问题的根本原因至关重要——无论是源于数据内容还是支撑基础设施。
| 数据质量特性 | 视角 | 示例质量度量 | 度量函数 |
|---|---|---|---|
| 准确性 | 固有 | 语法数据准确性 | X = A/B |
| 完备性 | 固有 | 记录完备性 | X = A/B |
| 一致性 | 固有 | 引用完整性 | X = 1-A/B |
| 时效性 | 固有 | 更新及时性 | X = A/B |
| 保密性 | 两者 | 加密使用率 | X = A/B |
ISO/IEC 25024 的一个显著特点是将质量度量与数据生命周期阶段和目标实体显式关联。该标准识别的目标实体包括:体系结构、上下文模式、数据模型(概念、逻辑、物理)、数据字典、数据文件、数据库管理系统、关系数据库管理系统、表单和展示设备。每个目标实体都定义了特定的属性——属性、元素、数据项、数据值、元数据、记录和信息项——从而提供了精确的度量框架。
这种细粒度方法使得能够进行针对性的数据质量干预。例如,在数据设计阶段,”概念数据模型完备性”(Com-I-6)和”元数据准确性”(Acc-I-6)等度量有助于验证数据架构是否正确表示业务需求。在数据收集和集成阶段,”引用完整性”(Con-I-1)和”语义一致性”(Con-I-6)等度量确保传入数据与现有数据集保持一致性。
该标准在 15 个特性中提供了 63 个质量度量,每个度量都有唯一的标识符、名称、描述、度量函数、适用的 DLC 阶段和目标实体。度量分为三个使用级别:”高度推荐”(19 个度量,经大型组织实际使用验证)、”推荐”(36 个度量,来自创新视角)和”参考”(8 个度量,来自实验研究)。
在实践中实施 ISO/IEC 25024 需要系统化的方法,将数据质量度量集成到现有数据管理框架中。度量函数模式 X = A/B(合规项与总项之比)被广泛使用,将值归一化到 [0.0, 1.0] 范围以实现一致的解释,其中较高的值表示更好的质量。
标准中的一个强大技术是使用异常值检测(Acc-I-4)来识别异常数据值,这可能表明测量错误、欺诈或系统性数据质量问题。标准描述了参数法(正态分布)和非参数法(基于分位数)的异常值识别方法,使工程师能够根据数据分布特征灵活选择。
对于管理主数据的组织,”由于元数据定义的主数据可理解性”(Und-I-3)和”链接的主数据可理解性”(Und-D-3)度量提供了评估元数据管理有效性的工具。这些度量与数据治理计划的成功和法规合规工作直接相关。