IEC 15938-3-04 (cor1-2005) 信息技术—多媒体内容描述接口—第3部分:视觉

详解ISO/IEC 15938-3视觉描述子标准及其2005年勘误内容

IEC 15938-3-04(cor1-2005)是国际电工委员会(IEC)采纳的ISO/IEC 15938-3:2004标准及其2005年第一次勘误,全称为“信息技术—多媒体内容描述接口—第3部分:视觉”。该标准是MPEG-7标准族的核心组成部分,定义了描述图像和视频视觉特征的描述子(Descriptors)以及相应的描述模式(Description Schemes),为多媒体内容的高效检索、过滤和管理提供了标准化的接口。自2004年发布并经2005年勘误修正后,该标准至今(2026年)仍是视觉描述领域最具影响力的国际规范之一。

1. 标准概况与适用范围

IEC 15938-3-04(cor1-2005)适用于需要统一表达视觉内容的各类应用,包括但不限于数字图书馆、视频搜索平台、智能监控系统、影视制作资产管理等。标准明确定义了颜色、纹理、形状及运动四大类视觉描述子的语法和语义,并规定了描述子的提取、表示及匹配的基本框架。2005年发布的勘误1主要针对Scalable Color描述子的色空间参数和位深度定义,以及若干描述模式的约束规范进行了技术修正,确保了标准在不同实现间的一致性。

注意:原版标准于2004年发布,2005年勘误是强制性修正,所有符合标准的产品均应参照勘误内容实施。

2. 主要技术内容与要求

标准主体定义了超过20种视觉描述子,下面按类别介绍核心描述子及关键技术要求。

2.1 颜色描述子

颜色描述子包括主导颜色(DominantColor)、可缩放颜色(ScalableColor)、颜色结构(ColorStructure)和颜色布局(ColorLayout)。其中,勘误1将ScalableColor的颜色空间参数从固定YCbCr改为默认YCbCr但允许其他空间,并修正了位数编码方式。颜色布局描述子采用8×8分块后DCT系数,支持图像与视频间的快速浏览。

2.2 纹理描述子

纹理描述子包括同质纹理(HomogeneousTexture)、纹理浏览(TextureBrowsing)和边缘直方图(EdgeHistogram)。同质纹理使用Gabor滤波提取62维特征,边缘直方图以80维局部边缘分布表示纹理信息。

2.3 形状描述子

基于区域的形状(RegionShape)使用ART(Angular Radial Transform)系数描述物体内部形状,基于轮廓的形状(ContourShape)采用曲率缩放空间表示轮廓特征。3D形状描述子面向三维网格模型。

2.4 运动描述子

包含运动活动(MotionActivity)、相机运动(CameraMotion)和运动轨迹(MotionTrajectory)等。运动活动描述子将视频片段的运动强度分为5个等级,相机运动描述子提取平移、摇移等参数。

类别描述子名称特征维度匹配度量
颜色主导颜色8(可变)直方图交
颜色可缩放颜色256L1距离
颜色颜色结构32L2距离
颜色颜色布局12加权欧式
纹理同质纹理62马氏距离
纹理边缘直方图80L1距离
形状基于区域35L2距离
形状基于轮廓可变动态规划
运动运动活动5级查表
颜色布局描述子特别适合视频片段的快速浏览和索引,因为它仅需少量DCT系数即可表达整体颜色分布。

3. 实施/应用要点

实施本标准的系统需严格按照DDL(描述定义语言,ISO/IEC 15938-2)定义的模式进行描述子编码。2005年勘误对ScalableColor的颜色空间参数进行了更正:原定义的YCbCr必须作为默认色空间,并且位数参数由5位改为实际编码位数。开发者应更新其实现代码,确保与勘误一致。

在性能优化方面,建议对描述子的提取参数进行规范化(如图像缩放尺寸、分块大小),以保证不同系统间的互操作性。匹配度量建议采用标准附录中推荐的相似度度量方法。

重要:部分早期实现未采纳勘误修正,可能导致不同系统对同一视觉内容产生的描述子不一致。因此,在整合第三方组件时,必须确认其是否兼容cor1-2005。
采用本标准的系统可实现跨平台、跨应用的视觉内容互操作,极大提升多媒体检索与分析效率。
强制性要求:所有宣称符合IEC 15938-3-04的设备或软件必须完全实现勘误1中所有的语法修正,否则视为不符合标准。

4. 与其他标准的关系

IEC 15938-3-04是MPEG-7家族(ISO/IEC 15938系列)的第3部分,与其他部分紧密关联:第2部分(DDL)定义了描述子的XML语法;第4部分(音频)描述音频特征;第5部分(多媒体描述方案)提供通用描述框架。此外,该标准可配合JPEG 2000(ISO/IEC 15444)用于图像特征提取,也可与MPEG-4 AVC(ISO/IEC 14496-10)结合进行视频分析。

作为加拿大国家标准(CAN/CSA-ISO/IEC 15938-3-04),它等效于国际标准ISO/IEC 15938-3:2004。符合本标准的系统亦满足ISO/IEC 15938-3:2002/Cor 1:2005的要求(注:原2002版被2004版替代,但勘误仍适用)。

常见问题(FAQ)

问:IEC 15938-3-04 (cor1-2005) 主要修正了哪些内容?
答:主要修正了 ScalableColor 描述子的颜色空间默认定义和位数编码方式,并调整了部分描述模式(如GoFGoP)的约束条件,提高了标准的严谨性和实现一致性。
问:该标准在多媒体检索中的典型应用有哪些?
答:包括基于图像内容的相似性检索(如颜色、纹理、形状)、视频镜头检测与关键帧提取、运动分类等。广泛应用于数字资产管理和视频监控等场景。
问:如果已有基于早期版本(2002)的MPEG-7系统,是否需要升级?
答:如该系统宣称兼容标准,则必须按照cor1-2005更新;否则可能与其他系统互操作失败。建议主动升级以符合统一语义。
问:该标准与MPEG-7第2部分(DDL)有何关系?
答:第3部分定义描述子的语义和提取方法,而第2部分定义用XML描述这些描述子的语法。实际使用中需结合DDL生成XML描述文档。

📥 标准文件下载

🔒
请等待 10 秒,广告加载完成后将自动显示下载链接

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注