ISO/IEC 29170-2 — 高级图像编码与评估 — 第2部分:评估方法

下一代图像压缩的感知质量评估标准

ISO/IEC 29170-2 概述

ISO/IEC 29170-2 是 ISO/IEC JTC 1/SC 29 多部分标准的第二部分,专门定义高级图像编码技术的评估方法。第一部分确立了编码框架,而第二部分则专注于如何测量和比较编码图像的质量。它提供了一套严格的方法论,结合了主观视觉评估与客观指标计算,使得在 JPEG 等传统编码器与新兴的基于神经网络的压缩方案之间能够进行公平的基准测试。

该标准引入了双刺激连续质量标度(DSCQS)方法,可减少观众偏差并为编码图像质量生成统计可靠的均值意见分数(MOS)。

现代图像编码系统越来越多地依赖于针对感知指标而非传统 PSNR 进行优化的学习型压缩模型。ISO/IEC 29170-2 认可了这一范式转变,规定了能够捕捉人眼视觉系统(HVS)特征的评估协议,包括对比度敏感性、亮度掩蔽和纹理掩蔽效应。

使用 ISO/IEC 29170-2 的标准化评估框架可确保编码器性能声明在不同研究团队和产品供应商之间具有可重现性和可比性,从而促进图像编码生态系统的良性竞争。

主观与客观评估流程

ISO/IEC 29170-2 规定的主观评估流程涉及严格控制的环境条件:使用 D65 白点校准的显示器,环境照明为 15 勒克斯,观看距离为图像高度的四倍,并在评分前进行标准化培训。测试素材必须包含至少八个场景,涵盖从低到高的空间复杂度,每个场景在多个比特率下处理。生成的 MOS 值使用置信区间和异常值检测进行分析,以确保统计有效性。

评估方法 类型 关键指标 最佳应用场景
DSCQS 主观 均值意见分数(MOS) 编码器比较与标准化
SSIM 客观 结构相似性指数 实时监控
PSNR-HVS 客观 HVS 加权 PSNR 编码器参数微调
VMAF 客观 视频多方法评估融合 流媒体质量优化
LPIPS 客观 学习感知图像块相似度 神经编码器评估
仅靠客观指标不足以进行编码器标准化。ISO/IEC 29170-2 要求任何声称优越性的编码器必须在 95% 置信水平下通过统计显著的主观验证测试。

对于客观评估,该标准推荐了一套互补的指标体系。结构相似性指数(SSIM)捕捉亮度和对比度失真,而 LPIPS 等较新的指标利用深度神经网络特征来近似人类的感知判断。工程师应计算所有推荐的指标并报告完整结果以提供透明度。

工程实施与最佳实践

实施评估框架需要一个自动化测试流水线,该流水线接收参考图像,以指定的比特率应用待测试编码器,批量计算客观指标,并协调经过培训的人类观众的测试环节。流水线应存储所有中间编码图像和日志以备审计。

一个常见陷阱是在主观测试中使用未经校准的显示器。即使显示器的伽玛值、峰值亮度或色温有微小偏差也可能使 MOS 结果无效。在进行主观测试之前,务必使用光谱辐射计进行显示器校准。

对于开发新编码器的工程团队,标准建议采用分层方法:首先使用客观指标(SSIM、VMAF)进行快速筛选,排除无前景的设计;然后对最优候选进行有针对性的主观测试。这种方法在保持统计严谨性的同时降低了主观评估的成本和时间。标准还提供了选择与目标应用领域匹配的测试图像的指导——医学影像需要不同于消费摄影的测试内容。

常见问题解答

问:ISO/IEC 29170-2 是否适用于视频编码评估?

答:虽然主要为静态图像编码设计,但 DSCQS 主观方法可通过延长呈现时间适用于短视频片段。完整的视频评估请参考 ITU-R BT.500 和 ITU-T P.910 标准。

问:有效的主观测试需要多少名受试者?

答:标准建议在经过视力敏锐度和色觉筛查后,至少需要 15 名受试者。在标准化背景下,为获得高置信度的结果,最好有至少 25 名受试者。

问:客观指标能否完全取代主观测试?

答:不能。客观指标虽能提供有用的工程指导,但无法完全捕捉人类视觉感知的复杂性。主观测试仍然是编码器评估的黄金标准,也是 ISO/IEC 标准化的必要条件。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注