Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC 25389:2021 提供了在信息技术和数据管理更广泛背景下的一套全面的数据质量管理框架。作为 ISO/IEC 数据管理标准家族的一部分(与关于数据来源的 25422、关于参考数据的 25434 和关于主数据的 25642 并列),该标准定义了在数据全生命周期中定义、测量和改进数据质量的结构化方法。对于数据架构师和治理专业人员而言,25389 填补了抽象质量原则(ISO 8000)与具体实施质量计划之间的空白。
该标准识别了 15 个数据质量维度,分为四个类别。内在维度(准确性、一致性、客观性、可信度)解决独立于上下文的固有数据质量。上下文维度(相关性、及时性、完整性、适当数量)评估是否适合用途。表示维度(可解释性、易于理解、简洁表示、一致表示)关注格式和清晰度。可访问性维度(可访问性、访问安全性、可用性)关注检索和使用数据的能力。
该标准的一个重要工程洞察是:并非所有维度对所有用例都同等重要。标准明确建议在任何数据质量计划开始时进行优先级排序练习。例如,在实时欺诈检测系统中,及时性和准确性排名最高;在监管报告场景中,完整性和一致性是最重要的。这种上下文加权可以防止在测量对业务结果没有实质影响的维度上浪费精力。
| 类别 | 维度 | 测量方法 | 典型阈值 |
|---|---|---|---|
| 内在 | 准确性 | 记录级与权威源比较 | 关键字段 ≥ 99.5% |
| 内在 | 一致性 | 跨记录约束验证 | ≥ 99.0% |
| 上下文 | 及时性 | 数据年龄 vs. 服务水平协议(SLA) | 运营系统 ≤ 24 小时 |
| 上下文 | 完整性 | 必填字段的非空比率 | 关键标识符 ≥ 99.9% |
| 表示 | 可解释性 | 元数据覆盖率和数据字典遵循度 | 已发布数据集 100% |
| 可访问性 | 可用性 | 数据访问端点的正常运行时间百分比 | ≥ 99.9%(三个九) |
该标准定义了一个七步持续改进周期:(1)基于干系人需求定义质量要求、(2)建立测量标准和阈值、(3)通过分析和审计评估当前质量水平、(4)分析质量问题的根本原因、(5)规划和实施改进行动、(6)持续监控质量水平、(7)沟通结果并调整要求。该周期与质量管理专业人员熟悉的 PDCA(计划-执行-检查-行动)模型相一致。
从实施角度来看,第 3 步(评估)是大多数数据质量计划成功或停滞的关键节点。标准推荐自动化数据分析工具作为主要评估机制,辅以对那些无法通过算法验证的维度(例如可信度,需要领域专家判断)进行人工抽样。与数据目录工具的集成至关重要——标准明确将质量指标与元数据管理联系起来。
该标准将数据质量管理定位为企业数据治理的核心职能,而非孤立的技术活动。它建议建立由业务、IT 和数据管理职能代表组成的数据质量指导委员会。质量规则应在业务术语表中定义,并在数据摄入点通过部署在数据管道中的自动化验证工作流强制执行(例如 Apache Kafka 模式注册表验证、数据仓库中的 Great Expectations 测试套件)。
该标准的一个关键架构建议是”质量账本”的概念——一个不可变的日志,记录质量测量、改进行动和残留质量问题。该账本作为审计和合规目的的权威记录。在实践中,这可以使用类似区块链的架构(带密码验证的仅追加日志)或更简单的方法(如数据湖中专用的质量事件存储)来实现。