Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC 29121:2018 提供了一个标准化的框架,用于定义、测量和报告数据质量度量指标。在组织日益依赖数据驱动决策的时代,量化数据质量的能力已不再是可选项——而是法规遵从、运营效率和可信分析的核心要求。
该标准建立了数据质量维度的分类体系——包括准确性、完整性、一致性、时效性和唯一性等类别——并为每个维度定义了可测量的指标。29121 并未规定一刀切的度量集,而是提供了一个灵活的框架,组织可以根据自己的数据领域和用例进行定制。
ISO 29121 的核心是其数据质量维度模型,将度量指标组织为六个主要类别:
| 维度 | 定义 | 示例指标 |
|---|---|---|
| 准确性 | 数据正确反映现实世界对象的程度 | 字段错误率(每1000条记录中的错误数) |
| 完整性 | 存在且可用的数据比例 | 必填属性的空值率 |
| 一致性 | 数据集或系统间不存在矛盾的程度 | 跨系统值匹配率 |
| 时效性 | 数据相对于其更新周期的时效程度 | 使用时数据年龄(小时/天) |
| 唯一性 | 数据集内或跨数据集不存在重复记录的程度 | 重复记录比率 |
| 有效性 | 数据符合其定义的格式、类型和范围的程度 | 格式合规百分比 |
每个维度都关联一个或多个可量化指标。标准提供了详细的计算公式、抽样策略和报告模板。重要的是,它区分了直接指标(通过检查数据本身来测量)和间接指标(从流程或系统特征推断得出)。
标准定义了一个系统化的测量生命周期,包含五个阶段:
1. 范围定义。识别与业务背景相关的数据资产、属性和质量维度。例如,客户主数据质量评估可能侧重于姓名、地址和联系字段的准确性、完整性和唯一性。
2. 指标选择。从标准的目录中选择特定指标,或定义符合框架的自定义指标。每个指标必须有明确的测量单位、数据源和可接受阈值。
3. 数据抽样。确定抽样方法(随机抽样、分层抽样或系统抽样)和样本量。标准提供了统计指导,以实现95%置信水平和5%误差范围。
4. 测量执行。使用自动化数据剖析工具或人工检查来执行测量。标准为许多常见指标指定了类似SQL的精确查询。
5. 报告与补救。使用标准的报告模板展示结果,包括维度评分、趋势数据和建议措施。
ISO/IEC 29121 不仅是一个理论框架——它还为实施提供了具体指导:
| 关注点 | 建议 | 理由 |
|---|---|---|
| 工具选择 | 使用支持标准基于SQL的指标定义的工具 | 减少返工并确保可审计性 |
| 阈值设定 | 基于业务影响分析设定阈值,而非任意目标 | 使质量水平与风险偏好保持一致 |
| 测量频率 | 高波动属性每日测量;稳定属性每周测量 | 平衡监控成本与检测速度 |
| 责任归属 | 每个指标必须有指定的数据质量负责人 | 确保补救问责制 |
| 文档管理 | 维护带血缘关系的数据质量指标目录 | 支持可追溯性和监管审计 |
该标准还阐述了数据质量与数据治理之间的关系,强调仅有度量指标是不够的,还需要明确的责任归属、上报路径和补救流程。