ISO/IEC 25422:2020 — 数据来源模型

跨异构信息系统的数据血统追踪

ISO/IEC 25422:2020 定义了用于表示数据在信息系统中创建、派生和转换历史的数据来源模型。该标准与 W3C PROV 推荐标准家族(PROV-DM、PROV-O、PROV-N)紧密对齐,但通过企业数据管理的领域特定构造对其进行了扩展——包括业务上下文注释、策略约束和多级聚合。对于构建血统追踪系统的数据工程师来说,25422 提供了可互操作的来源交换所必需的概念基础和序列化指南。

W3C PROV 关注 Web 上的通用来源,而 ISO/IEC 25422 增加了面向企业的功能:组织角色绑定、数据质量影响传播,以及对细粒度(记录级)和粗粒度(数据集级)来源的支持。

1. 来源图结构

该来源模型的核心是一个有向无环图(DAG),包含三种主要节点类型:实体(数据制品、记录、数据集)、活动(流程、转换、ETL 作业)和代理(人员、组织、软件系统)。图中的边表示关系:used(活动到实体)、wasGeneratedBy(实体到活动)、wasAttributedTo(实体到代理)、wasAssociatedWith(活动到代理)以及 actedOnBehalfOf(代理到代理的委托关系)。

该标准引入了对基本 PROV 图的两项扩展:businessContext 注释,将项目标识符、监管分类和业务流程元数据附加到来源节点;以及 qualityImpact 边,沿派生路径传播数据质量分数。后一个功能在监管合规场景中特别有价值,因为下游报告的准确性取决于多个上游数据源的质量。

节点类型 PROV 等价 25422 扩展 示例
实体 prov:Entity businessContext, retentionPolicy “Customer_Data_Daily_Export.csv”
活动 prov:Activity executionEnvironment, inputSchema “ETL_Job_Daily_Customer_Sync”
代理 prov:Agent organizationalRole, certificationLevel “Data_Engineer_Team_Alpha”
一个常见的实现错误:创建过于细粒度的来源图。在百万行表的单个字段或行级别记录来源会产生包含数十亿节点和边的图——计算代价高昂。标准建议聚合:默认情况下在数据集级别记录来源,仅对通过数据敏感度分类识别的关键数据元素下钻到记录级别。

2. 来源收集策略

标准描述了三种收集策略:(1)基于检测——将来源捕获逻辑直接嵌入数据处理管道(例如 Apache Spark 转换中的钩子、JDBC 驱动拦截器);(2)基于日志——从现有审计日志、数据库事务日志和工作流管理系统记录中派生来源;(3)基于推断——在直接捕获不可行时,从数据特征(如模式指纹、统计相关性)推断来源关系。

对于大多数企业环境,混合方法效果最佳。基于检测的捕获提供最准确的来源,但需要修改每个数据管道。基于日志的捕获可作为遗留系统的回退方案,而基于推断的捕获最适合在近似血统可接受的数据发现场景中使用。

一家大型欧洲银行使用 Apache Atlas(Hadoop 管道的基于检测捕获)结合 Spline(遗留 SQL 作业的基于日志捕获)实施了混合来源捕获,在六个月内实现了 2,400 个数据资产中 94% 的来源覆盖率。ISO/IEC 25422 模型被用作来源存储的规范模式。

3. 来源系统的工程设计洞察

该标准最实用的贡献之一是来源 API 规范,它定义了用于提交和查询来源记录的 RESTful 端点。该 API 支持时间查询(”显示上周二的这份报告的来源”)、影响分析(”哪些下游报表依赖此源表?”)和路径追踪(”找到这两个数据集之间的最短派生路径”)。

对于实施来源存储的工程团队,标准推荐使用属性图数据库(如 Neo4j、JanusGraph)而非关系型存储,因为来源查询本质上是图遍历操作。标准包含了 SPARQL(针对 RDF 序列化)和 Cypher/Gremlin(针对属性图存储)的查询模式示例。

来源元数据本身也有保留策略。标准警告不要无限期存储细粒度来源,这可能成为数据隐私风险(例如,捕获谁在何时访问了特定客户记录可能违反 GDPR 下的数据最小化原则)。来源保留期应与底层数据的保留计划对齐。

常见问题

Q: 数据来源和数据血统有什么区别?
这两个术语经常互换使用,但 ISO/IEC 25422 对它们进行了区分:来源是创建和转换的完整历史(谁、什么、何时、如何),而血统是专注于派生路径的子集(什么转换成了什么)。血统本质上是完整来源图的一个投影。
Q: 25422 与 OpenLineage 标准有何关系?
OpenLineage 是一个社区驱动的规范,专注于现代数据管道中的实际血统收集。ISO/IEC 25422 提供了更正式和全面的概念模型。两者可以共存——OpenLineage 事件可以映射到 25422 来源图结构,用于企业级血统整合。
Q: 遗留系统的来源可以追溯捕获吗?
可以,使用基于日志的策略。数据库事务日志、ETL 作业日志和文件系统元数据可以被解析来重建近似来源。标准承认追溯来源的精度低于基于检测的捕获,并建议为来源记录标注置信度分数。
Q: 该标准支持哪些序列化格式?
标准定义了 JSON-LD(与 W3C PROV-JSON 对齐)、XML(PROV-XML)、Turtle(PROV-N)的绑定,以及用于高吞吐量场景的二进制格式。JSON-LD 由于其广泛的生态系统支持,被推荐为默认交换格式。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注