ISO/IEC 26925:2013 — 数据质量模型

信息技术 — 数据管理 — 数据质量模型

数据质量模型概述

ISO/IEC 26925:2013为信息技术系统建立了一个全面的数据质量模型,提供了一个标准化框架,用于在数据的整个生命周期中定义、测量和管理数据质量。随着组织越来越依赖数据驱动的决策制定,评估和确保数据质量的能力已成为一项关键的业务能力。该标准通过规定一组质量特征并提供如何在实际环境中测量和评估这些特征的指导来满足这一需求。

数据质量不是一个绝对概念——它依赖于上下文。完全适合某一目的的数据可能完全不适合另一目的。ISO/IEC 26925通过根据特定使用上下文的要求来定义可测量的质量特征,承认了这一点。

该模型建立在ISO/IEC 25012(软件产品质量的数据质量模型)的成熟概念之上,并以更广阔的视角进行扩展,涵盖了数据管理过程、数据治理框架和组织职责。标准定义了三个主要类别的数据质量特征分类法:固有数据质量、系统相关数据质量和数据质量管理能力。

质量类别 特征 关注点
固有数据质量 准确性、完整性、一致性、可信度、时效性 数据本身,与处理数据的系统无关
系统相关数据质量 可用性、可移植性、可恢复性 系统保持和交付数据质量的能力
数据质量管理能力 监控能力、执行能力、改进能力 组织管理数据质量的过程
三类别模型是一个强大的分析工具:它帮助组织区分起源于数据收集过程的数据质量问题(固有)、由不完善的系统引起的问题(系统相关)以及由薄弱的治理过程导致的问题(管理能力)。

数据质量维度详解

固有数据质量特征代表了数据质量的基础属性。准确性衡量数据正确描述其所代表的现实世界实体或事件的程度——例如,数据库中客户的地址是否与其实际物理地址一致。完整性评估所有必需的数据元素是否都存在,同时考虑必填字段和提供上下文的可选元素。一致性验证数据在不同记录、数据库或时间点之间是否包含矛盾。可信度评价数据源和数据收集方法的可靠性。时效性衡量数据是否在可接受的时间窗口内反映了现实世界实体的当前状态。

系统相关数据质量特征解决了信息系统在保持数据质量方面的作用。可用性衡量在需要时数据可访问的程度,包括系统正常运行时间和数据检索性能。可移植性评估数据在不同系统或格式之间传输而不损失质量的难易程度。可恢复性评价系统在故障或损坏事件后将数据恢复到正确状态的能力,包括备份和灾难恢复能力。

组织通常大量投资于提高固有数据质量,而忽视了系统相关方面。然而,数据可用性和可恢复性同样至关重要——准确但在关键业务决策期间不可用的数据在功能上是无用的。平衡的数据质量计划应涵盖所有三个类别。

数据质量管理能力特征定义了维持数据质量随时间的持续性所需的管理过程。监控能力指持续跟踪数据质量水平是否符合定义目标的能力。执行能力衡量组织通过验证规则、访问控制和流程控制防止质量下降的能力。改进能力评估解决数据质量问题的纠正措施和根本原因分析过程的有效性。

维度 测量方法 典型指标
准确性 与权威来源比对或物理验证 与参考匹配的记录百分比
完整性 已填充字段与预期字段的比例 必填字段已填充的百分比
一致性 跨记录和跨系统比较 每1000条记录中的矛盾数
时效性 上次更新至今时间与所需新鲜度的比较 在可接受时限内的记录百分比
可用性 系统正常运行时间和查询响应时间 99.9%正常运行时间,<500 ms平均查询时间

数据质量模型的实践实施

在实践中实施ISO/IEC 26925要求组织将抽象的质量模型转化为针对其特定数据资产的具体、可测量的质量要求。推荐的方法始于数据质量评估,以建立所有相关维度的基线质量水平,然后定义与业务需求一致的质量目标。这些目标应具体、可测量、可实现、相关且有时间限制(SMART原则),并应反映每个数据资产对业务运营的关键性。

标准中规定的测量框架提供灵活指导而非刚性规定。组织可以使用自动数据剖析工具来测量完整性和一致性,使用人工抽样和验证过程进行准确性评估,以及使用系统监控工具进行可用性和可恢复性测量。关键原则是测量方法应被记录、可重复,并自身接受质量保证——符合计量学原则,即测量系统必须至少与被测量的数据一样准确。

数据质量计划中一个常见的失败模式是试图同时对所有数据资产的所有维度进行测量。这种方法会压垮组织能力并稀释焦点。更有效的策略是优先处理高影响的数据资产——如客户记录、财务数据和受监管信息——并聚焦于对其使用最相关的维度,随着数据质量管理能力的成熟逐步扩大范围。

该标准还涉及数据质量管理的组织方面,包括数据管理责任的分配、数据质量审查委员会的建立,以及将数据质量指标纳入绩效管理系统。这些治理机制确保数据质量不被视为一次性项目,而是作为需要持续投资和管理关注的持续组织能力。

常见问题

问1:ISO/IEC 26925与ISO/IEC 25012的关系是什么?
ISO/IEC 25012在软件产品质量的特定上下文中提供数据质量模型,侧重于作为软件系统一部分的数据。ISO/IEC 26925将此模型扩展到覆盖更广泛的数据管理生命周期,包括组织过程、治理和管理能力。实施ISO/IEC 25012的组织可以使用26925将质量计划扩展到以软件为中心的边界之外。
问2:数据质量模型能否应用于非结构化数据?
虽然该模型最初是针对结构化数据构思的,但其质量特征可以适用于非结构化数据,如文本文档、图像和多媒体内容。对于非结构化数据,可以通过内容验证抽样评估准确性,通过元数据分析评估完整性,通过跨文档语义比较评估一致性。测量方法不同,但底层质量维度仍然适用。
问3:数据质量和数据治理之间的关系是什么?
ISO/IEC 26925中定义的数据质量管理是数据治理的关键组成部分。标准的数据质量管理能力特征(监控、执行、改进)通过提供可衡量的标准来评估治理有效性,直接支持数据治理目标。数据治理建立了政策、角色和职责,而26925质量模型提供了评估这些政策是否达到预期结果的测量框架。
问4:数据质量应多久测量一次?
频率取决于数据的波动性和关键性。高波动性数据如客户联系信息或实时传感器数据可能需要每天甚至持续监控。低波动性参考数据如产品分类代码可能每季度或每年评估一次即可。标准建议测量频率应在数据质量政策中记录,并根据观察到的质量趋势和业务影响评估进行调整。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注