Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC 14496-17:2007(加拿大标准协会采纳为CAN/CSA-ISO/IEC 14496-17-07)是MPEG-4标准体系的第17部分,正式名称为“信息技术——视听对象编码——第17部分:流媒体文本格式”。该标准定义了一种在MPEG-4系统(ISO/IEC 14496-1)中传输和呈现流式文本数据的格式与协议,使文本能够像音频和视频流一样被实时传输、同步播放,并支持字幕、滚动新闻、卡拉OK歌词等应用场景。
该标准适用于需要将文本作为独立媒体流进行同步传输的系统,例如数字电视(DVB)、流媒体服务平台、在线教育课件、远程会议实时字幕等。它弥补了传统字幕文件无法实时更新的不足,为动态文本交互提供了标准化方案。截至2026年复审,该标准仍然保持有效,在全球多媒体领域发挥着基础性作用。
标准定义了流媒体文本样本的编码结构。每个文本样本包含文本字符串、呈现时间戳(PTS)、持续时间以及可选的样式属性(字体、颜色、位置等)。样本可以采用二进制格式或XML格式封装。下表展示了文本样本的核心参数:
| 参数 | 描述 | 典型值/范围 |
|---|---|---|
| 文本字符串 | 要显示的UTF-8/UTF-16文本 | “欢迎收看” |
| 呈现时间戳(PTS) | 文本在解码器端的呈现时间(基于MPEG-4时间轴) | 1234567(微秒) |
| 持续时间 | 文本在屏幕上保持的时间(毫秒) | 3000 |
| 样式ID | 引用预定义样式表中的样式 | 0x01(字体Arial, 大小36, 黄色) |
| 区域坐标 | 文本显示区域的像素坐标(x, y, 宽度, 高度) | 10, 80, 800, 60 |
文本流被划分为访问单元(Access Units, AU),每个访问单元对应一个文本样本。访问单元通过MPEG-4系统的同步层(SL)数据包传输。SL包头携带时间戳、序列号、随机访问指示等,确保解码器能够准确重建呈现时序。文本流的配置信息(如时间基准、样式表)通过对象描述符(Object Descriptor)传递。
标准定义了多种样本类型以实现灵活的文本控制:
标准定义了多个配置层级,以适应不同应用需求。例如,基本配置仅支持二元格式和有限样式;增强配置支持XML格式、多区域和复杂样式。下表列出关键配置参数:
| 配置项 | 值/范围 | 说明 |
|---|---|---|
| textFormat | 0x01 (Binary) / 0x02 (XML) | 样本编码方式 |
| timeScale | 1000 (Hz) | PTS时间基频 |
| mpeg4Profile | 0x0A (StreamText) | MPEG-4系统配置文件标识 |
| maxSampleSize | 1024 (字节) | 单个文本样本最大容量 |
流媒体文本的实现需要编码器将文本转换为访问单元并封装为SL数据包,通过MPEG-2传输流(ISO/IEC 13818-1)或RTP进行传输。解码器需解析SL包头、提取文本样本并按照时间戳渲染。开发时需注意MPEG-4系统层配置的完整性,包括SL配置描述符和对象描述符的设定。
ISO/IEC 14496-17 紧密依存于MPEG-4系统部分(ISO/IEC 14496-1)的同步层与对象描述框架。它与视频编码(ISO/IEC 14496-10, H.264)和音频编码(ISO/IEC 14496-3)共同构成完整的多媒体流。此外,它与传统字幕标准(如CEA-608/708、DVB字幕)在应用上互补:流媒体文本更适用于基于IP的交互式环境,而传统标准主要用于广播。与其他文本格式(如WebVTT)相比,流媒体文本在系统层级上的同步精度更高,更适合专业广播场景。
本文基于2026年标准复审状态编写,版权归原作者所有。