Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC 25422:2020 定义了用于表示数据在信息系统中创建、派生和转换历史的数据来源模型。该标准与 W3C PROV 推荐标准家族(PROV-DM、PROV-O、PROV-N)紧密对齐,但通过企业数据管理的领域特定构造对其进行了扩展——包括业务上下文注释、策略约束和多级聚合。对于构建血统追踪系统的数据工程师来说,25422 提供了可互操作的来源交换所必需的概念基础和序列化指南。
该来源模型的核心是一个有向无环图(DAG),包含三种主要节点类型:实体(数据制品、记录、数据集)、活动(流程、转换、ETL 作业)和代理(人员、组织、软件系统)。图中的边表示关系:used(活动到实体)、wasGeneratedBy(实体到活动)、wasAttributedTo(实体到代理)、wasAssociatedWith(活动到代理)以及 actedOnBehalfOf(代理到代理的委托关系)。
该标准引入了对基本 PROV 图的两项扩展:businessContext 注释,将项目标识符、监管分类和业务流程元数据附加到来源节点;以及 qualityImpact 边,沿派生路径传播数据质量分数。后一个功能在监管合规场景中特别有价值,因为下游报告的准确性取决于多个上游数据源的质量。
| 节点类型 | PROV 等价 | 25422 扩展 | 示例 |
|---|---|---|---|
| 实体 | prov:Entity | businessContext, retentionPolicy | “Customer_Data_Daily_Export.csv” |
| 活动 | prov:Activity | executionEnvironment, inputSchema | “ETL_Job_Daily_Customer_Sync” |
| 代理 | prov:Agent | organizationalRole, certificationLevel | “Data_Engineer_Team_Alpha” |
标准描述了三种收集策略:(1)基于检测——将来源捕获逻辑直接嵌入数据处理管道(例如 Apache Spark 转换中的钩子、JDBC 驱动拦截器);(2)基于日志——从现有审计日志、数据库事务日志和工作流管理系统记录中派生来源;(3)基于推断——在直接捕获不可行时,从数据特征(如模式指纹、统计相关性)推断来源关系。
对于大多数企业环境,混合方法效果最佳。基于检测的捕获提供最准确的来源,但需要修改每个数据管道。基于日志的捕获可作为遗留系统的回退方案,而基于推断的捕获最适合在近似血统可接受的数据发现场景中使用。
该标准最实用的贡献之一是来源 API 规范,它定义了用于提交和查询来源记录的 RESTful 端点。该 API 支持时间查询(”显示上周二的这份报告的来源”)、影响分析(”哪些下游报表依赖此源表?”)和路径追踪(”找到这两个数据集之间的最短派生路径”)。
对于实施来源存储的工程团队,标准推荐使用属性图数据库(如 Neo4j、JanusGraph)而非关系型存储,因为来源查询本质上是图遍历操作。标准包含了 SPARQL(针对 RDF 序列化)和 Cypher/Gremlin(针对属性图存储)的查询模式示例。