Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC 29128-1:2024 是一个致力于人脸识别系统性能评估的多部分标准的首个部分。它建立了一套严格、标准化的方法,用于测量人脸识别系统在广泛操作条件下将探针图像与底库参考进行匹配的准确程度。
该标准的出台正值关键时刻。人脸识别系统被部署在高风险应用中——执法、机场边境管控、金融了解你的客户(KYC)核查——在这些场景中,准确性和公平性都受到密切关注。ISO/IEC 29128-1 为透明、可重复和具有偏见意识的人脸识别性能评估提供了技术框架。
该标准定义了一套全面的指标,超越了简单的准确率:
| 指标 | 定义 | 典型部署阈值 |
|---|---|---|
| 错误接受率 (FAR) | 冒名者比较被错误接受的比例 | 十万分之一(高安全) |
| 错误拒绝率 (FRR) | 真实比较被错误拒绝的比例 | 百分之一(边境管控) |
| 真正识别率 (TPIR) | 真实探针在 rank-1 被正确识别的比例 | >99%(底库 <10^6) |
| 假正识别率 (FPIR) | 冒名者探针被错误识别的比例 | <1%(监控名单筛查) |
| 等错误率 (EER) | FAR = FRR 的操作点 | 用于可比性报告 |
重要的是,标准要求所有指标都必须附带置信区间报告,并按人口统计子组——包括年龄、性别和肤色——进行分层,以便进行公平性分析。这种人口统计分层是 29128-1 相较于早期人脸识别评估实践最重要的进步之一。
标准规定了严格的测试协议,以确保统计有效性和可重复性:
数据集构成。评估数据集必须包含至少 10,000 个不同的个体,每个个体至少 3 张图像。数据集必须在各人口统计组之间保持平衡,任何单一组别不得超过总数的 40%。跨质量变化是强制性的——图像必须涵盖不同的分辨率、光照条件和角度。
协议结构。标准定义了三种测试模式:验证(1:1 比对)、识别(1:N 搜索)和开放集识别(部分探针在底库中无对应条目)。每种模式都有不同的报告要求。
底库规模缩放。必须在多个底库规模(10^3、10^4、10^5 和 10^6)下报告性能,以表征准确度随搜索空间增长的退化情况。这对部署规划至关重要。
ISO/IEC 29128-1 的一个基石是它对人口公平性的处理。标准要求:
| 要求 | 规范 | 目的 |
|---|---|---|
| 分层报告 | 为每个人口统计组分别报告 FAR/FRR | 检测性能差异 |
| 公平性指标 | 组间 FAR 和 FRR 的最大差异 | 量化偏差程度 |
| 跨质量分层 | 按图像质量等级报告性能 | 区分偏差与质量影响 |
| 对抗性测试 | 在故意选择的困难子组上进行评估 | 识别失效模式 |
标准并未规定具体的公平性阈值(例如’FAR 差异不得超过 5%’),因为可接受的阈值取决于具体应用。但它强制要求透明报告,以便部署者能够做出明智的决策。在整体人群上表现良好但在特定子组上表现较差的系统应在评估中被标记出来。