ISO/IEC TR 29181-5：未来网络 — 第5部分：多媒体方面

未来网络中的多媒体交付

ISO/IEC TR 29181-5 专注于未来网络架构中多媒体通信的独特且苛刻的要求。根据最新的 Cisco VNI 报告，视频流量已占全球互联网流量的 70% 以上，而新兴应用如 AR/VR 远程呈现、体积视频和全息通信将带宽和延迟需求推向前所未有的水平，未来网络必须从底层就为媒体分发进行优化。该 TR 涉及超高清视频（4K 需要 25-40 Mbps，8K 需要 100-200 Mbps）、沉浸式音频（空间音频、Dolby Atmos、MPEG-H，支持多达 64 个音频通道）、交互式实时媒体（AR/VR 远程呈现需要低于 10 毫秒的运动到光子延迟）以及跨大洲亚秒同步的全球规模直播分发。核心技术要求包括交互式媒体的单向延迟低于 20 毫秒、高级内容零丢包、动态适应内容复杂度的带宽保证，以及在用户察觉之前检测损伤的 QoE 监控。

未来网络将多媒体视为一等公民而非普通数据。这意味着网络元素可以理解媒体语义——例如在视频数据包流中优先处理 I 帧而非 B 帧，或对同一通话的音频和视频组件应用不同的丢包保护。

媒体类型	当前互联网体验	未来网络目标
4K/8K 视频	自适应流（ABR），频繁缓冲	网络感知编码，零缓冲
AR/VR 远程呈现	尽力而为，常有降质，50+ms MTP	保证低于 10ms MTP 延迟
直播	基于 CDN，10-30 秒延迟	多源输入，亚秒级全球同步
沉浸式音频	仅立体声（2 通道）	基于对象的空间音频（64+ 通道）
全息通信	商业上不可行	400 Gbps+ 专用路径，低于 5ms 延迟

网络感知媒体编码与智能传输

TR 引入了网络感知媒体编码的概念，其中编码器参数根据来自网络元素的关于可用带宽、丢包模式、延迟预算和端到端路径质量的实时反馈进行动态调整。这一反馈循环能够根据设备能力和网络条件实现最佳编解码器选择——在 AV1（最佳压缩，比 H.265 优 30%）、VVC/H.266（下一代，比 H.265 优 50%）或 EVC（用于遗留兼容性的基线）之间选择——以及跨包括视频、音频、触觉信息和元数据通道的媒体组件的动态比特分配。传输层结合了自适应前向纠错（AFEC），其可变编码率根据实测网络条件实时调整（清洁链路冗余 10%，有损无线链路高达 50%），并结合多路径调度，通过不相交的物理路径发送策略性冗余数据包以抵御单路径故障。对于直播活动分发，报告描述了发布-订阅模型，多个地理分布的输入点同时接收信号，基于名称的任播机制将每个观众传送到具有最小延迟的最近可用源。

网络感知编码引入了一个必须精心稳定以避免振荡的闭环控制回路。如果反馈过于激进，众所周知的’网络良好 -> 提高质量 -> 网络恶化 -> 降低质量’循环可能每隔几秒产生视觉上令人分心的伪影。TR 建议对反馈信号进行时间常数为 2-5 秒的低通滤波，设置迟滞阈值以防止快速编解码器切换，以及基于预测的前瞻缓冲以平滑过渡。

报告还解决了 AR/VR 运动到光子（MTP）延迟的关键挑战。为获得沉浸式体验，MTP 必须保持在 10 毫秒以下以防止晕动症——这对链路中的每个环节都提出了极高要求：传感器采样（<1 毫秒）、网络传输（单向<3 毫秒）、渲染（<4 毫秒）和显示（<2 毫秒）。实现这一目标不仅需要快速网络，还需要基于边缘的渲染服务器（MEC）、部分工作负载在边缘运行的分割渲染架构，以及补偿剩余延迟的预测性跟踪。TR 为不同部署场景提供了详细的延迟预算分解。

体验质量测量框架与工程指南

TR 29181-5 的主要贡献之一是一个全面的未来多媒体网络体验质量（QoE）测量框架。报告定义了一个统一 QoE 指数（UQI），它结合了客观技术指标（吞吐量、单向延迟、延迟变化、丢包率、重排序率）与感知质量指标（通过 VMAF/PSNR 计算的视频 MOS、音频聆听努力度评分、空间音频定位准确性，以及对于 AR/VR：存在感评分和模拟器晕动问卷响应）。工程部署指南包括：（1）在网络边缘而非核心部署媒体感知中间盒（转码器、数据包整形器、FEC 注入器）；（2）使用网内计算节点进行实时 AR/VR 流合成和分割；（3）实现滑动窗口 FEC，其自适应冗余按流而非按链路校准；（4）建立媒体交付 SLA，对通过独立第三方探针监控的 QoE 违规设置经济处罚；（5）在关键网络点部署遥测采集器，为实时仪表盘提供数据并在 QoE 低于阈值时触发自动修复。

在 5G 边缘（MEC 服务器）部署网内媒体处理已在商业试验网络中被证明可以将 AR/VR 运动到光子延迟从 50 毫秒以上降低到 10 毫秒以下——消除了沉浸式体验中晕动症的主要原因。

如果没有适当的每流资源隔离，共享链路上的 TCP 流量突发可能悄然耗尽实时媒体流的缓冲区空间，导致灾难性的数据包丢失，使视频通话或 AR 会话无法使用。TR 要求对实时媒体实施严格的每流队列隔离和优先级调度，同时配备带宽预留机制，确保即使在拥塞情况下也能保证最低吞吐量。

常见问题

未来网络多媒体处理丢包的方式与当前方法有何不同？
它使用网络感知自适应前向纠错（AFEC），编码器根据实时网络反馈动态调整冗余。与今天使用的固定速率 FEC（例如始终 20% 的里德-所罗门编码）不同，AFEC 在 5%（清洁光纤链路）和 50%（有损无线链路）之间自适应——在网络良好时节省带宽，在网络恶化时保护质量。

全息通信的实际带宽需求是多少？
以当前压缩比，捕获完整光场的全息远程呈现每位用户需要 400 Gbps 到 1 Tbps。TR 将其确定为一个长期目标，只有在压缩技术取得革命性突破（可能通过神经压缩达到 100:1 或更好）并且网络基础设施能够提供专用太比特路径的情况下才能实现。

现有流媒体协议（如 HLS 和 DASH）能否在未来网络环境中使用？
可以，但必须用双向网络反馈通道进行增强。TR 描述了对 CMAF（通用媒体应用格式）和 DASH 的扩展，增加了从网络监控器到媒体播放器的低延迟反馈通道，使播放器端能够根据实际网络容量（而非反应性的缓冲区水位测量）进行自适应。

跨多个地理区域同步直播媒体的推荐方法是什么？
TR 推荐在每个分发点使用精确时间协议（IEEE 1588v2）同步时钟，结合 RTP/RTCP 时间戳和媒体流中的参考帧标记。使用 GPS 驯服振荡器，跨大陆同步可在 1 毫秒内实现——足以满足全球直播活动和分布式演出的需求。

📥 标准文件下载

🔒

请等待 10 秒，广告加载完成后将显示下载链接

暂无下载文件

未来网络中的多媒体交付

网络感知媒体编码与智能传输

体验质量测量框架与工程指南

常见问题

📥 标准文件下载

发表回复取消回复

Trending now