Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO 25720:2009 定义了基因组序列变异标记语言 (GSVML),这是一种基于 XML 的数据交换格式,旨在促进国际研究和临床机构之间的基因组序列变异数据交换。在后基因组时代,全球范围内正在产生海量的基因组数据,但这些数据存在于异构格式的数据库中。GSVML 解决了对标准化、可互操作格式的关键需求,使得在无需更改现有数据库模式的情况下实现无缝数据交换成为可能。
该标准将 GSVML 定位在更广泛的医疗数据生态系统中,与 HL7(临床数据)、DICOM(医学影像)以及生物信息学标记语言(如 BSML 和 SBML)协同工作。这种分层方法认识到现代医疗 IT 必须整合临床、影像和基因组数据,以实现个性化医疗和药物基因组学的愿景。
| 数据类型 | 标准 | 重点领域 |
|---|---|---|
| 临床数据 | HL7 / EN 13606 | 电子健康记录、临床消息 |
| 影像数据 | DICOM / JPEG | 医学影像、放射学、病理学 |
| 基因组变异数据 | GSVML (ISO 25720) | SNP/STRP注释、等位基因频率、基因型 |
| 生物模型 | SBML / Cell ML | 系统生物学、细胞通路建模 |
| 序列注释 | BSML | 生物信息学序列特征和元数据 |
GSVML 规范建立在模块化 XML 架构之上,包含文档类型定义 (DTD) 和 XML Schema 两部分。DTD(附录 A)定义了结构语法——允许的元素、属性及其层次关系。XML Schema(附录 B)提供了更强的数据类型约束,包括等位基因值、基因组坐标和实验参数的约束定义。
核心 GSVML 数据模型捕获五个基本类别的信息:
1. 变异标识 — 每个遗传变异在 GSVML 文档中被分配一个唯一标识符。模型支持多种标识系统,包括 dbSNP rs ID、本地数据库标识符和 HGVS 命名法。标准明确考虑了不同实验室和数据库可能使用不同标识方案的现实情况。
2. 基因组上下文 — 变异通过参考序列坐标(染色体、位置、链方向)定位。模型支持基于特定基因组组装版本的坐标(如 GRCh38)和基于位点的描述,实现了不同基因组构建版本之间的交叉参考。
3. 等位基因和基因型信息 — 对于每种变异,捕获观察到的等位基因、其在研究群体中的频率以及个体基因型数据。模型支持双等位基因和多等位基因变异,在已知情况下明确编码等位基因相位。
4. 样本和群体元数据 — 对研究有效性至关重要,模型捕获有关研究样本的详细信息,包括群体起源、样本量、基因分型平台和质量指标。这使得 GSVML 数据的消费者能够评估数据质量及其与自己研究问题的相关性。
5. 临床注释 — 在可用的情况下,临床意义、相关表型、药物反应相关性和文献参考被链接到每种变异。这一临床维度将 GSVML 与纯研究导向的基因组格式区分开来。
GSVML 的开发过程(第 6 条)遵循了严格的方法论,从日本千年项目和 HL7 临床基因组学特别兴趣小组的用例分析开始。三个主要用例推动了规范的制定:
药物基因组学数据交换 — 在临床实验室和处方医生之间传输患者基因型数据。例如,实验室可能生成 CYP2C9 和 VKORC1 基因型数据以指导华法林剂量调整,并以 GSVML 格式将这些数据传输到电子健康记录系统。
群体遗传学研究 — 支持跨多个研究和群体的 SNP 频率数据聚合。GSVML 通过为等位基因频率报告提供通用格式来实现荟萃分析,促进大规模全基因组关联研究 (GWAS)。
诊断基因组学报告 — 标准化从诊断实验室向医疗保健提供者报告临床可行动遗传学发现的格式。此用例需要将变异数据与临床解释、治疗建议和证据来源参考相结合。
| 应用场景 | 数据量 | 关键 GSVML 特性 | 主要用户 |
|---|---|---|---|
| 药物基因组学 | 低(特定基因面板) | 临床注释、药物关联 | 临床实验室、医生 |
| 群体研究 | 高(全基因组) | 频率数据、群体元数据 | 研究机构 |
| 诊断报告 | 中(靶向面板) | 表型链接、证据参考 | 诊断实验室、遗传咨询师 |
| 数据库聚合 | 极高(多研究) | 来源追踪、质量指标 | 生物信息学平台 |
对于实施 GSVML 兼容系统的工程师,需要考虑几个架构问题。XML Schema 验证提供了强大的输入检查,但对于高通量生产系统,应考虑二进制编码或压缩——GSVML 文档可能非常冗长,特别是在传输数千个样本的全基因组变异数据时。
围绕 GSVML 的 API 设计应考虑基因组数据消费者的多样化需求。一些应用程序需要实时查询特定变异;其他应用程序则需要批量导入大型数据集。标准定义了数据格式而非传输机制,使实施者可以自由选择 REST API、消息队列或基于文件的交换方式。
对于长期系统架构,请考虑基因组知识快速演变的特性。今天被分类为良性的变异明天可能被重新分类为致病性。GSVML 文档应包括版本元数据和对注释更新的支持,使消费系统能够追踪临床解释随时间的来源变化。