ISO 29864 生物识别性能测试标准:准确性指标、ROC/DET 曲线与测试方法

ISO 29864 生物识别系统性能评估技术指南,包括 FAR、FRR、EER、ROC/DET 曲线与测试协议

ISO 29864 生物识别性能测试标准概述

ISO 29864 为测量、分析和报告生物识别系统的性能提供了严谨的框架。生物识别技术——包括指纹识别、人脸识别、虹膜扫描、语音认证和行为生物识别——已成为现代安全基础设施的重要组成部分。该标准建立了评估生物识别系统准确性、速度、吞吐量和可用性的通用词汇和方法论。对于系统集成商和安全架构师而言,ISO 29864 合规确保性能声明得到统计有效的测试协议的支持。

该标准区分了三种基本的测试模式:技术评估、场景评估和运行评估。每种模式服务于不同的目的,提供对系统行为的互补性洞察。标准规定了支撑所有三种模式的统计原理,包括置信区间、样本量确定和从测试数据中得出有效结论所必需的假设检验框架。

设计生物识别性能测试时,样本量至关重要。对于一个声称错误接受率为 0.1% 的系统,需要至少 30,000 次冒名顶替尝试才能以 95% 的置信度获得统计上有意义的结果。在开始任何性能评估之前,务必计算所需的样本量。

准确性指标:FAR、FRR 与 EER

ISO 29864 定义并标准化了用于表征生物识别系统性能的关键准确性指标。错误接受率衡量系统错误接受的冒名顶替尝试比例,而错误拒绝率衡量系统错误拒绝的真实用户尝试比例。这两个指标本质上是相互依赖的:降低 FAR 通常会增加 FRR,反之亦然。标准要求在多个操作点上同时报告这两个指标,使利益相关者能够理解决策阈值选择中涉及的权衡。

从这两个基础指标衍生出多个衍生度量。等错误率是 FAR 等于 FRR 的操作点,提供了系统准确性的单一数值总结。标准还定义了错误非匹配率和错误匹配率,它们是 FRR 和 FAR 的技术中心对应指标,排除了展示攻击和采集失败等系统级因素。注册失败率和采集失败率解决了系统的实际可用性问题,衡量由于生物识别样本质量差而无法成功注册或被识别的用户比例。

指标 全称 定义 典型可接受范围
FAR 错误接受率 冒名者接受数 / 总冒名尝试数 0.001% 至 1%
FRR 错误拒绝率 真实用户拒绝数 / 总真实尝试数 0.1% 至 5%
EER 等错误率 FAR = FRR 的操作点 0.01% 至 3%
FTE 注册失败率 失败注册数 / 总注册尝试数 < 2%
FTA 采集失败率 失败采集数 / 总采集尝试数 < 1%
比较生物识别系统时,切勿仅依赖 EER。两个具有相同 EER 值的系统在特定操作点上可能具有非常不同的 FAR 和 FRR 值。在做出选择决定之前,始终检查完整的 ROC 曲线并考虑应用程序的具体安全要求。

ROC 与 DET 曲线:可视化权衡

ISO 29864 规定使用接受者操作特征曲线和检测错误权衡曲线作为在所有操作点上可视化生物识别系统性能的标准工具。ROC 曲线绘制真实接受率与 FAR 的关系,随着决策阈值变化。ROC 曲线下面积提供了与阈值无关的整体系统准确性度量。完美系统的 AUC 为 1.0,而随机系统为 0.5。

DET 曲线在 x 轴上绘制 FAR,y 轴上绘制 FRR,通常使用对数刻度或正态偏差刻度。DET 表示通常更受高安全性应用的青睐,因为它在对法医和边境控制场景至关重要的极低错误率区域提供了更好的视觉分辨率。标准要求 ROC 和 DET 曲线都必须附有使用引导方法计算的置信带,反映有限样本评估中固有的统计不确定性。此外,标准还规定了如何计算和报告 AUC 及其置信区间。

对于高安全性访问控制应用,选择 FAR 最小化的操作点,即使 FRR 适度增加。通常建议 FAR 为 0.001% 或更低,接受这可能导致 FRR 值为 3-5% 并需要备用认证方法。

测试方法与环境因素

ISO 29864 提供了测试设计、执行和报告的详细规范。标准规定测试数据集必须在人口分布、样本质量变异和环境条件方面代表目标人群。对于运行评估,测试必须考虑光照变化、声学噪声、传感器维护状态和用户配合程度等因素。标准还要求测试协议包括处理展示攻击的规定,并且对此类攻击的抵抗能力必须与真实性能指标分开报告。

标准定义了性能测试结果的综合报告模板,要求记录所有相关的上下文信息,包括传感器规格、软件版本、注册条件、测试对象的人口统计细分、测试期间的环境条件以及用于分析的统计方法。这种文档化水平对于可重复性和实现不同条件下测试的不同系统之间的有意义比较至关重要。ISO 29864 还规定了商业化环境的最低报告要求。

当运行条件与注册条件不同时,生物识别性能会显著下降。在受控实验室环境中进行的测试可能会将实际性能高估 50% 或更多。在做出采购决定之前,始终在与预期部署环境高度匹配的条件下进行运行评估。

常见问题解答

问:ISO 29864 中 FAR 和 FMR 有何区别?

答:FAR 是一个系统级指标,包括导致错误接受的所有因素。FMR 是一个技术级指标,仅衡量算法在成功采集的生物识别样本上的错误匹配率。FMR 通常低于 FAR,因为它排除了采集和展示级失败。

问:如何为生物识别系统选择决策阈值?

答:决策阈值应基于应用的安全要求和用户便利性需求来选择。对于高安全应用,选择最小化 FAR 的阈值。对于高便利性应用,选择最小化 FRR 的阈值。标准建议进行风险评估过程以确定适当的平衡。

问:生物识别系统能否达到完美准确性?

答:不存在完美的生物识别系统。FAR 和 FRR 之间存在固有的权衡。ISO 29864 的目标是提供严格的测量和报告这些错误率的方法,以便系统集成商根据其特定的安全和可用性要求做出明智的决策。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注