Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/PAS 26183(公共可用规范)定义了一种基于 XML 的术语资源数据交换格式,即广为人知的 TermBase eXchange(TBX)。该标准由 ISO 与本地化行业标准协会术语特别兴趣组联合发布,旨在于不同的软件工具、数据库和组织之间实现术语数据的高效交换。在日益全球化的技术环境中,统一的术语库交换格式对于确保多语言产品文档的一致性、互操作性和长期可维护性至关重要。
ISO/PAS 26183 规定了一种以机器可读、平台无关的方式表示术语数据的格式。它解决了在翻译记忆系统、内容管理系统和专用术语管理工具之间交换术语库时对通用词汇表和结构的需求。该标准涵盖了术语、定义、使用语境、语法信息和行政元数据的表示方法。
该标准的范围包括单语和多语术语条目,支持在单个数据集中包含任意数量的语言。每个术语条目可以包含描述性字段、词性标签、学科分类和使用说明。该格式被设计为可扩展的,允许组织在保持与核心规范兼容的同时引入自定义数据类别。
ISO/PAS 26183 的一个关键设计原则是结构与内容的严格分离。结构由术语标记框架(TMF,ISO 16642)管控,而内容遵循 ISO 12620——一个综合性的术语工作数据类别注册表。这种分离确保相同的结构骨架可以容纳完全不同领域的术语数据而无需修改。
| 组件 | XML 元素 | 说明 |
|---|---|---|
| 术语条目 | <termEntry> | 表示一个概念,带有唯一标识符 (id) |
| 语言段落 | <langSet> | 按语言分组所有术语,xml:lang 属性指定语言 |
| 术语信息组 | <tig> | 包含单个术语及其注释信息 |
| 术语文本 | <term> | 实际的术语文字 |
| 词性 | <termNote type=”partOfSpeech”> | 语法类别(名词、动词、形容词等) |
| 定义 | <descrip type=”definition”> | 概念的定义或释义 |
| 学科领域 | <descrip type=”subjectField”> | 概念的学科分类 |
| 用法说明 | <admin type=”usageNote”> | 语境或语用信息 |
TBX 架构采用分层设计,每一层提供特定级别的抽象。在最底层,TMF 提供了术语标记的元模型。在此基础上,TBX 定义了具体的 XML 实现。最后,来自 ISO 12620 的数据类别填充了由结构定义的内容槽位。
TBX 文档的基本构建块是 术语条目(termEntry),它代表一个概念。在每个条目中,语言段落(langSet)将特定语言的所有术语和注释分组在一起。每个单独的术语包含在 tig(术语信息组)元素中,其中可能包括术语文本、词性、用法说明和管理状态。
TBX 中最关键的设计考量之一是数据类别约束的处理。ISO 12620 不仅定义了允许的数据类别列表,还规定了它们的值范围、数据类型和适用语境。例如,数据类别 “partOfSpeech” 接受来自封闭列表的值(名词、动词、形容词、副词等),而 “definition” 则接受任意语言的自由文本。实现者必须遵守这些约束以确保互操作性。
在设计 TBX 导入或导出模块时,有几个实际考虑因素。首先,必须将字符编码明确声明为 UTF-8,以支持术语数据的多语言特性。其次,XML 命名空间 http://www.tbxinfo.net/ 必须正确关联到 TBX 元素。第三,descrip 和 admin 元素上的 type 属性应引用来自公认 DCS 的数据类别。
从软件工程的角度来看,处理 TBX 数据的推荐方法是将 XML 解析为反映 TMF 层次结构的对象模型。这可以使用标准 XML 解析库(例如 Python 的 lxml、.NET 的 System.Xml)来实现。应在导入和导出时针对 TBX XSD 模式进行验证,以尽早捕获结构错误。此外,应本地维护或从 ISO 12620 在线仓库获取数据类别注册表,以验证内容级别的约束。
<tbx style="dct">
<text>
<body>
<termEntry id="tid-001">
<langSet xml:lang="en">
<tig>
<term>terminology extraction</term>
<termNote type="partOfSpeech">noun</termNote>
</tig>
</langSet>
<langSet xml:lang="zh">
<tig>
<term>术语提取</term>
<termNote type="partOfSpeech">noun</termNote>
</tig>
</langSet>
</termEntry>
</body>
</text>
</tbx>
处理包含数十万条目的超大型术语库时,性能考量变得尤为重要。批量导入时,流式 XML 解析器(SAX 或 StAX)优于 DOM 解析器。对于交互式应用程序,缓存常用语言段落和预编译数据类别验证器可以显著降低延迟。
最后,版本管理至关重要。ISO/PAS 26183 已经历多次迭代演变。组织应跟踪其 TBX 文件所符合的规范版本,并在文件头中包含适当的元数据。tbx 根元素的 style 属性(例如 “dct”、”xcs”)指示所使用的数据类别选择,必须明确声明以确保无歧义的解析。
<xref> 元素支持术语条目之间的交叉引用,从而实现上下位概念关系、同义词环和关联链接的表示。然而,完整本体表示超出了 TBX 的范围,更适合使用 ISO 24610 或 SKOS 等标准。
暂无下载文件