ISO/IEC 25642:2023 — 主数据管理参考架构

企业主数据生态系统的蓝图

ISO/IEC 25642:2023 定义了主数据管理(MDM)的参考架构——这是一套集成的流程、治理结构和技术能力,用于将企业的核心业务实体(客户、产品、供应商、位置、资产)作为可信、权威和可共享的资产进行管理。该标准提供了一个供应商中立的架构蓝图,组织可以使用它来设计、评估或提升其 MDM 能力。作为 ISO/IEC 数据管理标准家族(与关于数据质量的 25389、关于来源的 25422 和关于参考数据的 25434 并列)的顶峰,25642 将这些关注点整合到一个内聚的架构中。

ISO/IEC 25642 与技术无关,适用于任何 MDM 实现——无论是本地部署、云原生还是混合架构。参考架构以功能组件、数据流和集成模式来表达,而非特定产品或平台。

1. MDM 架构层次与组件

参考架构分为五个层次:(L1)数据源层——创建和消费主数据的运营系统(CRM、ERP、SCM);(L2)MDM 中心层——摄入、清洗、匹配、合并和发布主数据的核心处理引擎;(L3)数据消费层——消费主数据的分析系统(数据仓库、BI、AI/ML)和运营系统;(L4)治理与管理层的——用于数据治理、质量监控和异常处理的工具和工作流;(L5)基础设施与安全层——身份管理、访问控制、加密和审计日志。

MDM 中心层(L2)进一步分解为七个功能组件:(1)数据摄入和解析、(2)数据清洗和标准化、(3)身份解析(匹配/合并/幸存)、(4)黄金记录创建和版本管理、(5)关系管理(层级结构和跨实体链接)、(6)数据分发和同步、(7)中心管理和监控。

层次组件关键工程考量
L1 — 数据源CRM、ERP、SCM、遗留系统API 版本管理、变更数据捕获(CDC)、源头数据质量
L2 — MDM 中心摄入、清洗、匹配、合并、黄金记录可扩展性(水平)、匹配算法准确性、延迟
L3 — 消费数据仓库、BI、运营应用数据新鲜度 SLA、双向同步冲突
L4 — 治理管理控制台、质量仪表板、工作流基于角色的访问、审计追踪、异常处理
L5 — 基础设施IAM、加密、日志记录、监控GDPR 合规、数据驻留、静态/传输中加密
一个常见的架构错误:将 MDM 中心构建为仅存储黄金记录而不主动将修正同步回源系统的被动注册表。这创建了’黄金记录墓地’——中心中存在的已治理数据从未在运营中使用,因为源系统继续使用不干净的数据运行。

2. MDM 实施模式

标准识别了五种 MDM 实施模式:(P1)注册表——仅存储标识符和指向源记录指针的轻量级索引;(P2)共存——中心与源记录并排存储黄金记录并通过 API 发布;(P3)交易中心——中心成为主数据交易的权威系统,源系统通过它转发写操作;(P4)复合——混合方法,某些实体使用注册表,其他实体使用交易中心;(P5)数据联邦——无中央存储;通过查询路由即时组装主数据。

对于大多数大型企业,复合模式(P4)最为实用。客户主数据因合规和隐私要求可能需要交易中心,而供应商主数据可能通过共存模式就能满足。标准提供了选择每种实体类型适当模式的决策标准(数据量、更新频率、一致性要求、监管约束)。

一家财富 500 强零售商使用 25642 参考架构实施了复合 MDM 模式:客户数据使用交易中心(GDPR 合规)、产品数据使用共存模式(目录驱动更新)、位置数据使用注册表(低变更频率)。该项目在 1.2 亿客户记录中实现了 99.97% 的身份解析准确率。

3. 身份解析与黄金记录构建

身份解析——确定两条记录是否指向同一现实世界实体的过程——是任何 MDM 系统中技术挑战最大的组件。标准推荐使用概率匹配方法(基于 Fellegi-Sunter 模型或机器学习分类器),而不是确定性匹配,除非是最简单的用例。匹配引擎应考虑多个属性并赋予权重、优雅处理缺失值,并生成匹配置信度分数。

黄金记录构建过程(幸存)定义了如何将来自多个源记录的冲突属性值协调为单个权威值。标准定义了五种幸存规则:(1)最近更新获胜、(2)最可信源获胜、(3)最长值获胜(针对字符串属性)、(4)特定源优先级(例如客户姓名以 CRM 优于 ERP)、(5)人工管理员覆盖。这些规则应为每个属性和每个源系统可配置。

一个关键的运营风险:对低置信度匹配进行自动合并而无需人工审核。标准规定低于可配置置信度阈值的匹配必须路由给数据管理员进行人工审核。自动合并低置信度匹配会创建使数据质量问题恶化而非得到解决的黄金记录。

常见问题

Q: ISO/IEC 25642 与 Gartner 或 Forrester 报告中描述的 MDM 模式有何不同?
那些报告从分析师角度描述实施模式和产品评估。ISO/IEC 25642 提供了一个正式的参考架构,包含明确的层次定义、组件职责和数据流规范,可用作采购的需求基线或自定义开发的蓝图。
Q: 根据 25642,机器学习在 MDM 中的角色是什么?
标准识别了三个 ML 应用领域:(1)匹配算法增强——基于 ML 的分类器在准确性上可以超越传统的 Fellegi-Sunter 模型;(2)黄金记录丰富——从已知属性值预测缺失值;(3)异常检测——标记偏离既定主数据模式的记录。
Q: 25642 能否应用于多领域 MDM(一个平台中的客户、产品、供应商)?
可以。参考架构是领域无关的。标准建议使用具有单独实体类型配置的多领域 MDM 中心,而非单独的物理实例。这允许在单个中心内进行跨领域关系管理(例如通过购买历史将客户链接到产品)。
Q: 标准如何解决实时集成场景中的主数据质量问题?
标准推荐’摄入时测量、静态时丰富、读取时验证’的策略。数据质量检查应在摄入期间(L2)运行,丰富和幸存应异步计算,读取时提供的黄金记录应包含质量分数,消费者可用其评估适用性。

📥 标准文件下载

🔒
请等待 10 秒,广告加载完成后将显示下载链接

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注