Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
CAN/CSA-ISO/IEC TR 14496-24-08:2018 是加拿大标准协会(CSA)采纳的国际技术报告,等同于 ISO/IEC TR 14496-24:2008。该技术报告属于 MPEG-4(ISO/IEC 14496)系列标准的重要组成部分,专门阐述了音频与系统层之间的交互机制。
本标准适用于基于 MPEG-4 的多媒体系统研发与集成,特别是涉及音频编码、流化传输以及终端播放的场景。它为开发人员提供了音频对象与系统层(尤其是同步层与 FlexMux/TransMux)之间的通信规范,确保音频流在复合的多媒体环境中能够正确同步和解码。截至 2026 年,本标准依旧是设计和实现兼容 MPEG-4 系统的权威参考之一。
MPEG-4 系统层由 ISO/IEC 14496-1 定义,包括同步层(SL)、FlexMux 和 TransMux。本技术报告详细描述了音频访问单元(AU)如何被封装成同步层数据包(SL Packet),携带时间戳(CTS、DTS)等关键信息,使得接收端可以实现精确的音频再现。具体而言,音频编码后的数据需按照系统层要求携带音频特定信息扩展(AudioSpecificConfig)并映射到对象描述符(ObjectDescriptor)。
技术报告建立了一套完整的映射规则,将各种音频对象类型(Audio Object Types,AOT)与系统层的对象类型指示符关联。下表列出了几种常见 AOT 对应的系统值:
| 音频对象类型(AOT) | 音频对象类型ID | 系统层 AudioObjectType 值 | 说明 |
|---|---|---|---|
| MPEG-4 AAC LC | 2 | 0x40 | 低复杂度高级音频编码 |
| MPEG-4 AAC LTP | 4 | 0x42 | 长时预测 |
| MPEG-4 TwinVQ | 7 | 0x45 | 变换域加权交织矢量量化 |
| MPEG-4 CELP | 8 | 0x46 | 码激励线性预测 |
| MPEG-4 HVXC | 9 | 0x47 | 谐波矢量激励编码 |
这些映射确保系统层能够正确识别音频编码格式,并调用相应的解码器。
报告中还定义了音频流与系统层之间的缓冲区模型,包括解码缓冲区(DB)和解码器输入缓冲区(DIB)的尺寸要求。时间戳方面,要求音频访问单元的合成时间戳(CTS)必须在系统层时间基上保持一致,且解码时间戳(DTS)必须不早于前一帧的对应值。对于低延迟应用,系统层应支持音频的零时延配置。
在基于本技术报告设计系统时,建议针对音频对象的典型特征优化缓冲策略。例如,对于高比特率的 AAC 流,缓冲区尺寸应适当增大,以应对网络抖动,同时注意解码器的初始延迟。对于语音编码(如 CELP、HVXC),可以减小缓冲区以降低端到端时延。
本技术报告本身是 MPEG-4 标准集成的一部分,与以下标准紧密关联:
此外,本技术报告被加拿大采纳为 CAN/CSA 标准,这意味着在加拿大市场销售的相关产品应当遵循该版本的要求,以确保符合国家监管标准。