ISO/IEC 29128-1:2024 — 生物特征识别 — 人脸识别性能 — 第1部分

人脸识别系统评估的标准化基准

ISO/IEC 29128-1:2024 是一个致力于人脸识别系统性能评估的多部分标准的首个部分。它建立了一套严格、标准化的方法,用于测量人脸识别系统在广泛操作条件下将探针图像与底库参考进行匹配的准确程度。

该标准的出台正值关键时刻。人脸识别系统被部署在高风险应用中——执法、机场边境管控、金融了解你的客户(KYC)核查——在这些场景中,准确性和公平性都受到密切关注。ISO/IEC 29128-1 为透明、可重复和具有偏见意识的人脸识别性能评估提供了技术框架。

ISO/IEC 29128-1 旨在与 NIST FRVT(人脸识别供应商测试)项目互补。FRVT 提供持续的独立评估,而该标准定义了任何一方都可以遵循进行自合规评估的方法论。

核心性能指标

该标准定义了一套全面的指标,超越了简单的准确率:

指标 定义 典型部署阈值
错误接受率 (FAR) 冒名者比较被错误接受的比例 十万分之一(高安全)
错误拒绝率 (FRR) 真实比较被错误拒绝的比例 百分之一(边境管控)
真正识别率 (TPIR) 真实探针在 rank-1 被正确识别的比例 >99%(底库 <10^6)
假正识别率 (FPIR) 冒名者探针被错误识别的比例 <1%(监控名单筛查)
等错误率 (EER) FAR = FRR 的操作点 用于可比性报告

重要的是,标准要求所有指标都必须附带置信区间报告,并按人口统计子组——包括年龄、性别和肤色——进行分层,以便进行公平性分析。这种人口统计分层是 29128-1 相较于早期人脸识别评估实践最重要的进步之一。

测试协议与数据集要求

标准规定了严格的测试协议,以确保统计有效性和可重复性:

数据集构成。评估数据集必须包含至少 10,000 个不同的个体,每个个体至少 3 张图像。数据集必须在各人口统计组之间保持平衡,任何单一组别不得超过总数的 40%。跨质量变化是强制性的——图像必须涵盖不同的分辨率、光照条件和角度。

协议结构。标准定义了三种测试模式:验证(1:1 比对)、识别(1:N 搜索)和开放集识别(部分探针在底库中无对应条目)。每种模式都有不同的报告要求。

底库规模缩放。必须在多个底库规模(10^3、10^4、10^5 和 10^6)下报告性能,以表征准确度随搜索空间增长的退化情况。这对部署规划至关重要。

评估人脸识别系统时,务必以 DET 曲线的形式在多个阈值下报告 FAR 和 FRR,而不仅仅是在单一操作点。这样可以提供系统性能的完整图景。
警惕’底库效应’——性能退化不是因为算法质量,而是因为底库构成(例如,包含多个长相相似的个体)。标准的协议设计通过强制要求底库多样性指标来明确解决这一问题。

人口公平性与偏差分析

ISO/IEC 29128-1 的一个基石是它对人口公平性的处理。标准要求:

要求 规范 目的
分层报告 为每个人口统计组分别报告 FAR/FRR 检测性能差异
公平性指标 组间 FAR 和 FRR 的最大差异 量化偏差程度
跨质量分层 按图像质量等级报告性能 区分偏差与质量影响
对抗性测试 在故意选择的困难子组上进行评估 识别失效模式

标准并未规定具体的公平性阈值(例如’FAR 差异不得超过 5%’),因为可接受的阈值取决于具体应用。但它强制要求透明报告,以便部署者能够做出明智的决策。在整体人群上表现良好但在特定子组上表现较差的系统应在评估中被标记出来。

常见问题

ISO/IEC 29128-1 与 ISO/IEC 19795 有何关系?
ISO/IEC 19795 是适用于所有模态的通用生物识别性能测试和报告标准。ISO/IEC 29128-1 将其专门化用于人脸识别,增加了对姿态变化、光照、表情和人口统计分层的模态特定要求。
符合 29128-1 是否是部署的强制要求?
虽然该标准本身是自愿性的,但包括欧盟 AI 法案在内的几个监管框架正越来越多地将其引用为人脸识别评估的基准。对于高风险应用,合规正成为事实上的要求。
我可以使用未标注的网络爬取数据集进行评估吗?
由于同意和代表性问题,标准强烈不鼓励这种做法。它建议使用基于同意的、带有验证的人口统计标签的精选数据集。使用网络爬取的数据可能使监管合规失效。
推荐的跨质量评估方法是什么?
标准建议根据 ISO/IEC 29794-1 质量得分,按图像质量等级(高、中、低)分层报告性能。这使部署者能够了解系统对真实世界图像质量变化的鲁棒性。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注