Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
IEC 62665解决了一个重要挑战:使盲人和视障人士无需学习盲文即可阅读印刷文件。该标准定义了一种纹理映射图系统——印在普通纸张上常规文本旁边的二维单元格图案——可以通过笔形设备扫描并通过文字转语音技术转换为语音。这项国际标准由IEC第100技术委员会(音频、视频和多媒体系统及设备)制定,在传统印刷出版和数字无障碍之间架起了一座桥梁,创建了一种通用格式,使同一印刷页面能够同时为正常视力和视障读者服务。
纹理映射图是印在纸张上常规文本旁边的二维单元格阵列。每个纹理映射图由以下元素组成:
| 元素 | 描述 | 功能 |
|---|---|---|
| 单元格 | 最小方形元素(最小的印刷点) | 基本二进制信息单元(黑色=1,白色=0) |
| 单元块 | 11 × 11单元格方形区域 | 包含编码字符信息的结构化数据块 |
| 数据矩阵 | 来自编码文本数据的二维单元格图案 | 包含压缩和纠错后的文本内容 |
| 对齐线 | 环绕纹理映射图的带刻度标记的实心边框线 | 引导扫描笔识别纹理映射图的边界和方向 |
文本首先从其字符表示形式转换为压缩二进制流。压缩算法结合了Pack处理和LZSS处理以减少数据量。压缩后的数据随后使用伽罗瓦域GF(2048)的里德-所罗门纠错编码,即使印刷的纹理映射图部分污损、划伤或退化,系统也能恢复原始文本。
编码过程通过以下阶段将源文本转换为印刷纹理映射图:
解码过程逆转这一流程。用户将笔形扫描设备划过纹理映射图。设备捕获单元格图案图像,应用图像处理提取数据矩阵,运行纠错,解压缩数据,并将恢复后的文本馈送到文字转语音引擎进行音频输出。
| 阶段 | 输入 | 输出 | 关键算法 |
|---|---|---|---|
| 图像捕获 | 印刷纹理映射图 | 原始像素图像 | ≥ 600 dpi光学扫描 |
| 符号提取 | 原始像素图像 | 二进制矩阵 | 对齐线检测和透视校正 |
| 纠错 | 含错误的二进制矩阵 | 纠正后的二进制数据 | 里德-所罗门 GF(2048) |
| 解压缩 | 压缩二进制 | 编码文本流 | LZSS + Pack解压缩 |
| 语音合成 | 带发音提示的文本 | 音频输出 | 文字转语音引擎 |
该标准为确保可靠的扫描定义了印刷纹理映射图的精确要求:
| 参数 | 规格 | 原理 |
|---|---|---|
| 印刷分辨率 | ≥ 600 dpi | 足以分辨单个单元格,同时兼容标准办公打印机 |
| 纹理映射图尺寸 | 随数据量变化(标准表1) | 与文本长度成正比;约每100字符1 cm² |
| 距边缘边距 | ≥ 10 mm | 防止扫描和装订时被裁切 |
| 对齐线宽度 | 1个单元格宽度 | 笔传感器可检测的最小线条 |
| 缺口位置 | 对齐框左上角 | 标识方向和数据读取起点 |
该标准的核心编码层面设计为语言无关,但附录专门针对日语和英语文本的预处理。SpeechioEncode和SpeechioSymbol函数为编码具有不同语音要求的字符集提供了框架。对于未明确涵盖的语言,可按照提供附录中建立的模式,通过定义适当的字符到语音映射表来适配编码方案。
虽然两者都是二维矩阵码,但它们服务于根本不同的目的。二维码通常编码URL或短文本(最多几千个字符),并通过智能手机将用户重定向到数字内容。IEC 62665纹理映射图旨在将印刷文档的完整文本内容(可能达到数万个字符)直接编码在页面上,并嵌入用于直接文字转语音转换的语音控制代码。纹理映射图还针对笔式扫描而非相机扫描进行了优化。
IEC 62665于2012年出版(第一版),2015年修订(第二版)。鉴于移动无障碍技术的快速发展(智能手机OCR、AI驱动的文字转语音),纹理映射图方法代表了一个特定的利基市场:为印刷材料提供低技术、低成本的无障碍解决方案,适用于智能手机可能不可用或不合适的情况。该技术由日本的Original Design Inc.和Kosaido Co., Ltd.持有专利,这影响了其采纳模式。
技术上可以——可以在现有书籍中加入带有纹理映射图的贴纸或插页。然而,实际价值取决于书籍类型。对于内容静态的书籍(法律法规、技术手册、学术文本),加装是可行的。对于频繁更新内容的情况,在原始生产过程中一起印刷纹理映射图要经济得多。该标准包括了缺口标记系统的规定,可以识别任何页面上纹理映射图的位置,从而实现对选定页面的部分加装。