Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
IEC 62605 的核心是一个层次化的数据模型,将电子词典组织为多层容器结构。顶层是 词典本体(Dictionary Body),包含一个或多个 词条条目(Entry)。每个词条条目包含 词头(Headword)(被查询的词汇形式)和零个或多个 词条体(Body)(包含词义内容)。词条体又进一步细分为:
| 数据元素 | 描述 | 属性/特征 |
|---|---|---|
| Headword(词头) | 条目的主要查询词,包含拼写和可能的变体形式 | 拼写、音标、音节划分、词性、词源 |
| Pronunciation(发音) | 词头的发音信息 | 音标(IPA)、音频文件引用、发音变体 |
| Sense(义项) | 词的一个特定含义或用法 | 定义、例句、语域标签、学科标签 |
| Translation(译义) | 双语词典中对应目标语言的翻译 | 目标语词、语法信息、使用限制 |
| Example(例证) | 展示词汇在上下文中用法的句子 | 例句文本、翻译、语料来源 |
| Collocation(搭配) | 与该词频繁共现的词汇组合 | 搭配词、搭配类型(动宾、修饰等) |
| Cross-reference(交叉引用) | 指向词典中其他条目的链接 | 引用类型(参见、比较、同义反义) |
| Multimedia(多媒体) | 与条目相关的图像或音频资源 | 文件引用、媒体类型、使用情境 |
标准采用 XML 命名空间机制来扩展词汇数据的表示能力。核心命名空间定义了基础的词典结构元素,而可选的扩展命名空间允许集成专业词库(医学、法律、技术、科学)所需的特殊语义标签。
每个 IEC 62605 兼容词典文件都包含一个 词典元数据(Dictionary Metadata) 头部,该头部提供了词典的识别和使用信息:
| 元数据字段 | 描述 | 示例值 |
|---|---|---|
| 词典标识符 | 词典的唯一标识 | ISBN 978-0-19-957112-3 |
| 源语言 | 词头的语言 | en-GB(英式英语) |
| 目标语言 | 翻译/定义的语言(双语词典) | zh-CN(简体中文) |
| 词典类型 | 词典的类型分类 | monolingual / bilingual / thesaurus / encyclopedic |
| 条目总数 | 所包含词头的大致数量 | 150,000 |
| 版本 | 词典内容的版本号 | 2.1.0 |
| 版权与许可 | 知识产权信息 | Creative Commons BY-NC-SA 4.0 |
IEC 62605 使用 XML Schema(XSD)来定义词典格式。一个典型的词条条目 XML 结构如下(简化版):
<entry id="eng-run">
<headword>run</headword>
<pronunciation>
<ipa>/rʌn/</ipa>
<audio src="run_us.wav" />
</pronunciation>
<sense n="1">
<definition>to move using your legs, faster than walking</definition>
<example>She runs every morning.</example>
</sense>
<sense n="2">
<definition>to operate or control a machine or system</definition>
<example>He runs the printing press.</example>
</sense>
</entry>
IEC 62605 设计的目标是使电子词典能够在各种设备和操作系统之间无缝移植。标准通过三种主要机制实现这一点:
在实践中,创建 IEC 62605 格式词典涉及以下工作流:
问题 1:IEC 62605 与 LMF(ISO 24613 词汇标记框架)有何区别?
答:两者使用不同的 XML 模式表示词典数据,但服务不同的目的。ISO 24613(LMF)是 ISO/TC 37 开发的 NLP 和计算语言学标准,侧重于形态、句法和语义信息的详细标记,供计算词典使用。IEC 62605 是 IEC TC 100 开发的消费电子标准,侧重于消费设备平台(电子阅读器、移动应用)之间词典内容和显示的交换。主要区别在于:LMF 针对机器可处理性进行了优化,而 IEC 62605 针对内容的可呈现性和导航进行了优化。
问题 2:IEC 62605 如何支持多语种字符集?
答:由于使用 XML 和 UTF-8/UTF-16 编码,IEC 62605 本机支持所有 Unicode 字符集,包括拉丁文、中文、阿拉伯文、西里尔文、梵文和所有其它书写系统。词条条目可以包含右到左(如阿拉伯语)或竖写(如传统日语)的文本,但渲染端的支持由阅读器平台决定。对于 CJK(中日韩)语言,标准支持拼音/注音/假名注音效果。
问题 3:IEC 62605 词典能否使用数字版权管理(DRM)?
答:标准本身不包含 DRM 机制,但词典元数据可以包含版权和许可信息,供消费软件在执行许可限制时使用。实际的 DRM 加密和访问控制在分发渠道层面(如应用商店或内容服务器)实现,而不是在词典文件格式层面。XML 内容的加密可通过标准 XML 加密机制在传输或存储时完成。
问题 4:是否可以只导出词典的某一部分以供特定用途?
答:是的,IEC 62605 数据模型支持通过 XPath/XQuery 查询选择性地提取条目子集。例如,可以提取所有属于”计算机科学”学科标签的条目以创建专门的术语小词典。标准还定义了配置文件的概念,允许将大型词典的子集打包为针对特定使用环境优化的轻量级版本(例如,用于嵌入设备或入门级学习者的仅 5,000 个核心词汇的版本)。