ISO 25720:2009 — 健康信息学 — 基因组序列变异标记语言 (GSVML)

基于XML的基因组序列变异数据交换格式标准,实现生物信息学与临床基因组学平台之间的互操作性

GSVML 与 ISO 25720 概述

ISO 25720:2009 定义了基因组序列变异标记语言 (GSVML),这是一种基于 XML 的数据交换格式,旨在促进国际研究和临床机构之间的基因组序列变异数据交换。在后基因组时代,全球范围内正在产生海量的基因组数据,但这些数据存在于异构格式的数据库中。GSVML 解决了对标准化、可互操作格式的关键需求,使得在无需更改现有数据库模式的情况下实现无缝数据交换成为可能。

GSVML 主要关注单核苷酸多态性 (SNP) 作为核心数据对象,同时提供了扩展到其他序列变异的机制,包括短串联重复多态性 (STRP) 和更大的结构变异。

该标准将 GSVML 定位在更广泛的医疗数据生态系统中,与 HL7(临床数据)、DICOM(医学影像)以及生物信息学标记语言(如 BSML 和 SBML)协同工作。这种分层方法认识到现代医疗 IT 必须整合临床、影像和基因组数据,以实现个性化医疗和药物基因组学的愿景。

数据类型 标准 重点领域
临床数据 HL7 / EN 13606 电子健康记录、临床消息
影像数据 DICOM / JPEG 医学影像、放射学、病理学
基因组变异数据 GSVML (ISO 25720) SNP/STRP注释、等位基因频率、基因型
生物模型 SBML / Cell ML 系统生物学、细胞通路建模
序列注释 BSML 生物信息学序列特征和元数据

GSVML 架构与 XML 模式设计

GSVML 规范建立在模块化 XML 架构之上,包含文档类型定义 (DTD) 和 XML Schema 两部分。DTD(附录 A)定义了结构语法——允许的元素、属性及其层次关系。XML Schema(附录 B)提供了更强的数据类型约束,包括等位基因值、基因组坐标和实验参数的约束定义。

核心 GSVML 数据模型捕获五个基本类别的信息:

1. 变异标识 — 每个遗传变异在 GSVML 文档中被分配一个唯一标识符。模型支持多种标识系统,包括 dbSNP rs ID、本地数据库标识符和 HGVS 命名法。标准明确考虑了不同实验室和数据库可能使用不同标识方案的现实情况。

2. 基因组上下文 — 变异通过参考序列坐标(染色体、位置、链方向)定位。模型支持基于特定基因组组装版本的坐标(如 GRCh38)和基于位点的描述,实现了不同基因组构建版本之间的交叉参考。

3. 等位基因和基因型信息 — 对于每种变异,捕获观察到的等位基因、其在研究群体中的频率以及个体基因型数据。模型支持双等位基因和多等位基因变异,在已知情况下明确编码等位基因相位。

4. 样本和群体元数据 — 对研究有效性至关重要,模型捕获有关研究样本的详细信息,包括群体起源、样本量、基因分型平台和质量指标。这使得 GSVML 数据的消费者能够评估数据质量及其与自己研究问题的相关性。

5. 临床注释 — 在可用的情况下,临床意义、相关表型、药物反应相关性和文献参考被链接到每种变异。这一临床维度将 GSVML 与纯研究导向的基因组格式区分开来。

GSVML 的可扩展性是关键设计特征——虽然核心规范涵盖了 SNP 和 STRP,但元素和属性结构允许扩展到其他序列变异,包括插入、缺失、拷贝数变异和结构重排。

开发过程与应用场景

GSVML 的开发过程(第 6 条)遵循了严格的方法论,从日本千年项目和 HL7 临床基因组学特别兴趣小组的用例分析开始。三个主要用例推动了规范的制定:

药物基因组学数据交换 — 在临床实验室和处方医生之间传输患者基因型数据。例如,实验室可能生成 CYP2C9 和 VKORC1 基因型数据以指导华法林剂量调整,并以 GSVML 格式将这些数据传输到电子健康记录系统。

群体遗传学研究 — 支持跨多个研究和群体的 SNP 频率数据聚合。GSVML 通过为等位基因频率报告提供通用格式来实现荟萃分析,促进大规模全基因组关联研究 (GWAS)。

诊断基因组学报告 — 标准化从诊断实验室向医疗保健提供者报告临床可行动遗传学发现的格式。此用例需要将变异数据与临床解释、治疗建议和证据来源参考相结合。

应用场景 数据量 关键 GSVML 特性 主要用户
药物基因组学 低(特定基因面板) 临床注释、药物关联 临床实验室、医生
群体研究 高(全基因组) 频率数据、群体元数据 研究机构
诊断报告 中(靶向面板) 表型链接、证据参考 诊断实验室、遗传咨询师
数据库聚合 极高(多研究) 来源追踪、质量指标 生物信息学平台

工程实施考量

对于实施 GSVML 兼容系统的工程师,需要考虑几个架构问题。XML Schema 验证提供了强大的输入检查,但对于高通量生产系统,应考虑二进制编码或压缩——GSVML 文档可能非常冗长,特别是在传输数千个样本的全基因组变异数据时。

围绕 GSVML 的 API 设计应考虑基因组数据消费者的多样化需求。一些应用程序需要实时查询特定变异;其他应用程序则需要批量导入大型数据集。标准定义了数据格式而非传输机制,使实施者可以自由选择 REST API、消息队列或基于文件的交换方式。

在临床环境中实施 GSVML 数据交换时,请注意 ISO 25720:2009 发布于现代隐私法规(如 GDPR)之前。实施者必须添加适当的数据去标识化、访问控制和审计日志记录层以确保法规合规性。

对于长期系统架构,请考虑基因组知识快速演变的特性。今天被分类为良性的变异明天可能被重新分类为致病性。GSVML 文档应包括版本元数据和对注释更新的支持,使消费系统能够追踪临床解释随时间的来源变化。

常见问题

问:GSVML 如何与 HL7 FHIR Genomics 关联?
答:GSVML 提供详细的基因组数据格式,而 HL7 FHIR Genomics 定义如何将基因组数据整合到临床工作流中。这两个标准是互补的——GSVML 可作为 FHIR Genomics 资源中的有效载荷格式使用。
问:有了 VCF 等较新的格式,GSVML 是否仍然有现实意义?
答:GSVML 和 VCF 服务于不同目的。VCF 针对变异识别流程和原始数据存储进行了优化。GSVML 专为带有丰富临床注释的语义数据交换而设计,使其更适合临床和转化研究互操作性。
问:GSVML 是否支持下一代测序 (NGS) 数据?
答:是的,GSVML 可以表示通过 NGS 平台发现的变异。然而,标准关注的是变异数据本身而非原始测序读数——它专为解释结果的交换而非原始序列数据而设计。
问:GSVML 与 ISO 25720 一致性要求之间有什么关系?
答:一致性要求(第 2 条)要求 GSVML 文档符合指定的 DTD 和 XML Schema。实施必须至少支持核心 SNP 和 STRP 元素。可选扩展和自定义注释在标准扩展机制定义的框架内允许。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注