ISO/IEC 25389:2021 — 数据质量管理框架

在现代数据生态系统中构建系统化的数据质量管理方法

ISO/IEC 25389:2021 提供了在信息技术和数据管理更广泛背景下的一套全面的数据质量管理框架。作为 ISO/IEC 数据管理标准家族的一部分(与关于数据来源的 25422、关于参考数据的 25434 和关于主数据的 25642 并列),该标准定义了在数据全生命周期中定义、测量和改进数据质量的结构化方法。对于数据架构师和治理专业人员而言,25389 填补了抽象质量原则(ISO 8000)与具体实施质量计划之间的空白。

ISO/IEC 25389 与方法论无关,旨在补充现有框架(如 DAMA-DMBOK、TOGAF 和 ISO 8000-8)。它不取代这些框架,而是专门为数据质量管理提供结构化的覆盖层。

1. 核心数据质量维度

该标准识别了 15 个数据质量维度,分为四个类别。内在维度(准确性、一致性、客观性、可信度)解决独立于上下文的固有数据质量。上下文维度(相关性、及时性、完整性、适当数量)评估是否适合用途。表示维度(可解释性、易于理解、简洁表示、一致表示)关注格式和清晰度。可访问性维度(可访问性、访问安全性、可用性)关注检索和使用数据的能力。

该标准的一个重要工程洞察是:并非所有维度对所有用例都同等重要。标准明确建议在任何数据质量计划开始时进行优先级排序练习。例如,在实时欺诈检测系统中,及时性和准确性排名最高;在监管报告场景中,完整性和一致性是最重要的。这种上下文加权可以防止在测量对业务结果没有实质影响的维度上浪费精力。

类别 维度 测量方法 典型阈值
内在 准确性 记录级与权威源比较 关键字段 ≥ 99.5%
内在 一致性 跨记录约束验证 ≥ 99.0%
上下文 及时性 数据年龄 vs. 服务水平协议(SLA) 运营系统 ≤ 24 小时
上下文 完整性 必填字段的非空比率 关键标识符 ≥ 99.9%
表示 可解释性 元数据覆盖率和数据字典遵循度 已发布数据集 100%
可访问性 可用性 数据访问端点的正常运行时间百分比 ≥ 99.9%(三个九)
数据质量计划中的一个常见错误:以相同频率测量所有维度。标准建议不同的测量节奏——内在维度可在数据摄入时检查,上下文维度在查询时检查,表示维度仅在数据模式或格式发生变化时检查。

2. 数据质量管理流程

该标准定义了一个七步持续改进周期:(1)基于干系人需求定义质量要求、(2)建立测量标准和阈值、(3)通过分析和审计评估当前质量水平、(4)分析质量问题的根本原因、(5)规划和实施改进行动、(6)持续监控质量水平、(7)沟通结果并调整要求。该周期与质量管理专业人员熟悉的 PDCA(计划-执行-检查-行动)模型相一致。

从实施角度来看,第 3 步(评估)是大多数数据质量计划成功或停滞的关键节点。标准推荐自动化数据分析工具作为主要评估机制,辅以对那些无法通过算法验证的维度(例如可信度,需要领域专家判断)进行人工抽样。与数据目录工具的集成至关重要——标准明确将质量指标与元数据管理联系起来。

根据 Gartner 和 TDWI 的行业调查,实施完整七步周期的组织在 18 个月内可获得 3-5 倍的数据质量计划投资回报。关键成功因素不是测量工具的先进性,而是反馈回路的闭合——第 7 步(沟通)确保改进得以持续。

3. 工程设计洞察与治理集成

该标准将数据质量管理定位为企业数据治理的核心职能,而非孤立的技术活动。它建议建立由业务、IT 和数据管理职能代表组成的数据质量指导委员会。质量规则应在业务术语表中定义,并在数据摄入点通过部署在数据管道中的自动化验证工作流强制执行(例如 Apache Kafka 模式注册表验证、数据仓库中的 Great Expectations 测试套件)。

该标准的一个关键架构建议是”质量账本”的概念——一个不可变的日志,记录质量测量、改进行动和残留质量问题。该账本作为审计和合规目的的权威记录。在实践中,这可以使用类似区块链的架构(带密码验证的仅追加日志)或更简单的方法(如数据湖中专用的质量事件存储)来实现。

标准明确警告不要进行’质量作秀’——进行广泛的测量却不闭合改进循环。如果跳过第 5 步(改进行动),测量工作将成为资源的净消耗。收集的每个指标都必须追溯到特定的改进行动或退役决策。

常见问题

Q: ISO/IEC 25389 与 ISO 8000 有何不同?
ISO 8000 是基础性数据质量标准,定义了一般原则、术语和要求。ISO/IEC 25389 在这些原则基础上提供了一个管理框架——包括流程定义、角色分派和治理结构——组织可以直接实施。可以将 ISO 8000 理解为’是什么’,而 ISO/IEC 25389 是’怎么做’。
Q: 25389 能否应用于非结构化数据?
该标准主要针对结构化和半结构化数据设计。对于非结构化数据(文本、图像、视频),标准建议关注元数据质量和可访问性维度。非结构化内容的内在质量评估通常需要该标准未涵盖的领域特定方法。
Q: 推荐的数据质量评估频率是多少?
取决于维度和数据的关键性。运营数据质量检查(准确性、完整性、及时性)应在每次数据摄入事件时执行。涉及多个维度的战略评估应每季度进行一次,或在数据源模式发生重大变化时进行。
Q: 25389 如何与 Collibra 或 Alation 等数据目录工具关联?
标准提供流程和治理结构;数据目录工具是实施载体。合规的实施会将数据目录配置为存储质量维度定义、测量结果和改进行动跟踪——本质上是将目录用作标准中描述的质量账本。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注