ISO 26324:2025 — 数字对象标识符(DOI)系统

关于持久唯一标识符的语法、分配、解析和管理的全面技术指南——2025年第三版

1. 引言与范围

ISO 26324:2025(第三版)规定了数字对象标识符(DOI)系统——一个用于任何类型对象的持久唯一标识的社会和技术基础设施。DOI系统于1998年首次投入应用,现已广泛用于学术出版、文化遗产、科学数据和商业内容管理等领域。该标准为创建、注册、解析和管理持久标识符提供了完整的框架。

澄清”DOI”的含义:DOI代表”数字对象标识符”(digital object identifier),意为”对象的数字标识符”——而非”数字对象的标识符”。这一区别至关重要:DOI名称可以标识抽象实体(如作为创作作品的小说)、物理对象(如博物馆文物)和非物理实体(如法律协议),而不仅仅是数字文件和资源。

ISO 26324:2025的范围涵盖DOI名称的语法、分配和注册原则、使DOI名称可作为可操作网络链接使用的解析基础设施,以及描述被标识对象的系统元数据框架。该标准不规定特定的实现技术。

2. DOI名称语法

2.1 基本结构

DOI名称由按序排列的Unicode码点(图形类型,按照ISO/IEC 10646的规定)组成,分为两个部分,中间以U+002F Solidus(正斜杠/)分隔:DOI前缀和DOI后缀。DOI前缀本身可包含一个目录指示符,后接可选的注册人代码,两者以U+002E Full Stop(句点.)分隔。

组成部分 示例 说明
完整DOI名称 10.1000/123456 完整标识符:前缀 + “/” + 后缀
目录指示符 10 由注册管理机构分配;目前”10″是唯一已分配的目录指示符(第三版已允许其他值)
注册人代码 1000 分配给注册人的唯一字符串;可进一步细分(如1000.11)
DOI后缀 123456 注册人选择的码点序列,在前缀范围内唯一

DOI名称的总长度以及前缀或后缀的各自长度均无限制。后缀可包含来自其他标识体系(如ISBN、ISSN、ISAN、ISRC或ISNI)的标识符,但须遵循注册管理机构维护的语法规则。

2.2 Unicode与大小写敏感性

2025年第三版中最重要的技术更新之一是对大小写处理方式的澄清。DOI名称的等价性比较中,大小写不敏感仅适用于基本拉丁Unicode块(U+0041–U+005A和U+0061–U+007A),且仅在此范围内:

  • 10.5594/SMPTE.ST2067-21.202010.5594/sMPTE.sT2067-21.2020 等价(相同的基本拉丁字母,不同的大小写)
  • 10.26321/Á.GUTIÉRREZ.ZARZA...10.26321/á.gutiérrez.zarza... 不等价(重音字符不在基本拉丁大小写映射范围内)
  • 预组合字符(U+00C1 = Á)与分解序列(U+0041 U+0301 = A + 组合重音)不等价,即使它们显示为相同的字形
实现警告:在数据库或应用程序代码中存储或比较DOI名称时,应使用逐码点比较(而非归一化)。标准明确禁止在比较前应用Unicode归一化形式(NFC、NFD)。这与其他许多标识符系统不同,是DOI解析实现中常见的错误来源。

2.3 表示形式

标准定义了四种DOI名称表示形式:

形式 示例 用途
可视形式(纯文本) doi:10.1006/jmbi.1998.2354 印刷和显示;”doi:”前缀可选
URI形式 doi:10.1006/jmbi.1998.2354 使用”doi” URI方案,按照RFC 3986
URN形式 urn:doi:10.1006/jmbi.1998.2354 使用”doi” URN命名空间,按照RFC 8141
HTTP代理形式 https://doi.org/10.1006/jmbi.1998.2354 通过注册管理机构代理服务实现可解析URL
工程洞察:对于现代Web应用程序,HTTP代理形式(https://doi.org/...)是最实用的表示方式,可在任何Web浏览器中直接解析。在编程生成DOI链接时,务必在构造URL之前按照RFC 3986对DOI名称进行百分号编码。2025版已弃用传统的https://dx.doi.org/...形式。

3. 分配原则与持久性

3.1 核心原则

DOI名称的分配遵循若干基本原则,这些原则将DOI系统与简单的基于URL的标识区分开来:

  • 唯一性:每个DOI名称在DOI系统内标识且仅标识一个对象
  • 不透明性:字符串本身不携带确定含义——不得从码点序列中推断任何信息
  • 持久性:DOI名称不得更改或删除,无论权利转移、所有权变更甚至名称字符串存在错误
  • 粒度:DOI名称可在任何期望的精密度水平分配——从整部小说到其中的单个段落、引文或图片
  • 一等命名:标识符具有独立于任何其他对象的身份(与URL不同,URL与网络位置绑定)

3.2 实际应用中的粒度

标准明确承认注册人可根据功能需求在不同粒度级别分配DOI名称。例如,出版商可能为以下各项分别分配DOI名称:

  • 作为抽象创作作品的小说
  • 该小说的特定版本
  • 该版本中的特定章节
  • 表格、图片甚至单条引文

这些DOI名称各自完全独立且可解析。粒度选择决定了何种”变更”需要分配新的DOI名称——如果某个对象被定义为其所有权包含在内,则所有权变更产生不同的对象,需要分配新的DOI名称,同时原有名称继续有效。

4. 解析机制

DOI系统提供解析基础设施,接收DOI名称作为输入,并返回包含被标识对象当前信息的解析记录。解析独立于域名系统(DNS),但设计为与之兼容。

标准规定了解析服务的以下功能要求:

要求 说明
互联网兼容 通过全球唯一地址空间和通信进行传输
一等命名 标识符存在独立于任何其他对象
功能粒度 每个可区分的对象均可单独解析
数据类型化 数据项约束的可扩展定义
多重解析 同时返回多条当前信息
DNS独立 不依赖DNS,但可与之配合工作
可扩展性 标识符数量和字符串长度均无限制
Unicode兼容 完整支持Unicode字符集
工程洞察:多重解析能力是一个强大但未被充分利用的功能。单个DOI名称可根据上下文解析到不同的URL——例如,为人类用户返回出版商登陆页面,为自动收割工具返回元数据记录,为授权订阅者返回全文PDF。这是通过包含多个类型化条目(而非单个URL)的解析记录来实现的。

5. 系统元数据

每个DOI名称必须关联描述被标识对象的系统元数据。元数据框架旨在促进不同应用和社区之间的互操作性。标准定义了两类元数据元素:

5.1 参考元素

描述被标识对象本身,包括DOI名称、对象类型和子类型、对象名称、足以定义对象的基本元数据,以及引用同一对象的其他标识符。

5.2 管理元素

包括注册管理机构标识符和DOI记录的创建时间戳。

元数据模型通过通用框架支持所有类型的对象——不将书籍、视频、录音和照片视为具有不同元数据模式的根本不同实体,而是将其识别为具有不同值的同一高层属性的创作物。

6. 管理与注册

DOI系统由ISO 26324注册管理机构管理,提供以下核心服务:

  • 向注册人分配唯一的DOI前缀
  • 维护DOI目录——所有注册DOI名称的单一逻辑目录
  • 提供解析基础设施(https://doi.org/服务)
  • 制定和维护文档,包括DOI手册
  • 实施持久性和互操作性策略

注册管理机构可将特定任务委托给注册代理机构(如Crossref、DataCite等),这些机构负责为特定社区处理前缀分配和元数据注册。

关键总结:ISO 26324:2025代表了DOI系统的成熟演进——现在具有更清晰的Unicode处理、更新的表示形式、精简的元数据规范,以及通过允许分配”10″以外的目录指示符所带来的管理灵活性。对于构建持久标识符基础设施的工程师和架构师来说,该标准提供了一个兼顾技术精度和实用性的稳健参考模型。

7. 常见问题

问1:DOI名称与URL有何不同?

URL标识的是网络上的位置;如果资源迁移,URL就会失效。DOI名称是持久性标识符,无论被标识对象位于何处都保持不变。DOI解析基础设施维护当前的定位映射。此外,DOI名称可以标识根本没有网络位置的非数字对象和抽象对象。

问2:DOI名称能否包含ASCII字母和数字以外的字符?

可以。DOI名称可包含任何Unicode图形字符,包括重音字母、非拉丁文字符、标点符号和空格。但标准的等价性规则意味着:在比较DOI名称时,基本拉丁字母(A–Z/a–z)的大小写差异被忽略,而其他字符(如重音字母)的大小写差异不被忽略。预组合字符和分解序列即使显示相同也被视为不同。

问3:如果期刊更换出版商,DOI会改变吗?

不会。DOI系统的核心原则之一是持久性——DOI名称不得更改或删除,即使管理责任转移给不同的组织。新出版商更新解析记录(通常通过注册代理机构),使现有DOI继续正确解析。这就是DOI名称成为学术出版中持久引用链接标准的原因。

问4:ISO 26324从2022年第二版到2025年第三版有哪些变化?

三个主要变化是:(1)明确DOI名称仅对基本拉丁字母(A–Z/a–z)在等价性测试时大小写不敏感;(2)更新了常用表示形式列表(包括弃用传统HTTP代理形式如dx.doi.org);(3)修订了系统元数据规范以反映当前实践。此外,之前将目录指示符限制为”10″的规定已被删除,为未来扩展提供了可能。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注