ISO/IEC 29147:2022 — 生物特征呈现攻击检测 — 第11部分:评估

呈现攻击检测评估方法、指标与测试协议深度解析

PAD评估方法学概述

可靠的评估是可信呈现攻击检测的基石。没有标准化测试协议,就不可能比较PAD系统、验证安全声明或理解部署技术的局限性。ISO/IEC 29147:2022 建立了跨所有生物特征模态PAD系统的综合评估框架,定义了测试协议、数据集要求、统计验证方法和报告格式,使PAD性能评估严谨且可重复。

PAD评估的一个基本挑战是系统无法被证明安全——只能证明其能抵抗所测试的具体攻击。ISO/IEC 29147 通过要求针对定义的攻击种类和呈现仪器集合进行评估来解决此问题,并清晰记录评估的局限性。这种诚实的特性描述使系统采购方和运营方能够进行知情风险评估。

标准将PAD评估分为三个层级。第一级——算法评估在受控条件下针对数字呈现数据测试PAD算法,通常使用预先录制的攻击和真实数据集。第二级——运行评估在模拟运行条件的实验室环境中测试完整采集和PAD系统,包括光照、定位和环境因素的变化。第三级——现场评估在实际运行环境中用真实用户测试部署系统,捕获包括用户接受度和可用性影响在内的真实世界性能数据。

测试协议与数据集要求

攻击种类与呈现仪器

标准定义了评估中使用的攻击种类选择和记录的严格要求。对于每种攻击种类(例如人脸PAD的”打印照片”),评估必须指定呈现仪器(例如特定打印机型号和纸张类型)。标准要求每种攻击种类至少三种不同呈现仪器,以确保结果不特定于单一设备。对于制造伪体,必须测试来自不同生产批次的多个制造批次以考虑制造变异性。

数据集构成与统计功效

标准提供了基于所需统计置信水平的样本量确定指南。对于目标APCER为2%且置信水平95%的第一级评估,每种攻击种类需要至少约150次攻击呈现。数据集必须包含代表目标人群中预期全部人口和生理变异性的多样化真实呈现,最小样本量使用二项比例置信区间计算。标准强调使用不相交的数据集进行开发和评估,以避免过拟合。

评估层级 最少攻击种类 每种最少呈现仪器 最少真实受试者 典型时长
第一级(算法) 3 3 100 2-4周
第二级(运行) 5 3 200 4-8周
第三级(现场) 所有相关 按可用 500+ 3-12个月
PAD评估中的一个常见陷阱是开发和评估使用相同类型的呈现仪器。在特定打印机型号的照片上训练的PAD算法可能学习检测该打印机的点阵模式,而非泛化检测打印照片。标准强烈建议评估集使用算法开发过程中未见过的呈现仪器——这是机器学习中训练-测试分离的PAD类比。

错误率估计与置信区间

标准规定了使用适当置信区间估计APCER和BPCER的统计方法。对于小样本量或低错误率,推荐精确二项置信区间(Clopper-Pearson方法)。对于较大数据集,可使用连续性校正的正态近似区间。标准还定义了PAD系统统计比较的方法,包括配对比较的McNemar检验和性能差异置信区间的自助重采样。

工程实现设计洞察

实施稳健的PAD评估项目需要大量投资于测试基础设施、数据收集和统计专业知识。标准为不同成熟度的组织提供了实用指导,从进行基本第一级评估的小型供应商到进行综合第三级评估的大型测试实验室。

PAD评估中最显著的风险之一是数据集污染——无意中将真实图像用于攻击数据集,反之亦然。对于虹膜PAD,常见的污染路径是在不同测试条件下将美容隐形眼镜图像同时用作”攻击”和”真实”样本。标准强制要求严格的数据集可追溯性和审计程序以防止此类污染,包括加密数据集哈希和由独立团队进行数据集管理。

标准引入了泛化评估的概念——测试PAD系统针对训练数据中未明确包含的攻击类型。这对评估实际鲁棒性至关重要,因为攻击者必然使用系统开发期间未预料到的技术。标准建议每个评估层级至少保留一种攻击种类作为”零日”攻击,对系统开发者未知,以明确衡量泛化能力。

从报告角度,标准强制要求PAD评估结果包括总体性能指标和漏洞概况——按种类细分的APCER,识别系统最为脆弱的具体攻击类型。这种漏洞概况使系统集成商能够了解与每种攻击类型相关的残余风险,并在需要时实施补偿控制。结果还必须附有评估条件的明确说明,包括PAD决策阈值、采集硬件、环境条件和受试者人口统计信息。

常见问题解答

问:PAD系统应多久重新评估一次?
答:标准建议至少每年重新评估一次,或在发生重大系统更新时(传感器硬件变更、算法更新、新人群部署)。此外,出现可能影响系统威胁模型的新型攻击技术时应触发重新评估。
问:可以在现有运行数据上执行PAD评估吗?
答:虽然运行数据可提供有用的补充信息,但标准要求主要性能评估使用具有已知真实标签(真实vs攻击)的专用评估采集。运行数据缺乏可靠的攻击/非攻击标注,并引入使统计分析不可靠的混杂变量。
问:APCER与传统误接受率(FAR)有何区别?
答:APCER专门衡量PAD子系统检测呈现攻击的能力,而FAR衡量整体生物特征系统错误接受不匹配呈现的比率。被PAD正确检测到的呈现攻击将在匹配步骤之前被拒绝,因此成功攻击需要同时绕过PAD(APCER失败)和匹配已注册模板(FAR失败)。
问:标准如何处理PAD评估中的人口公平性?
答:标准要求按评估人群中各人口群体(年龄、性别、种族)分别报告APCER和BPCER。群体间的显著差异必须记录和讨论。这一要求认识到PAD性能与生物特征性能一样,可能因被测生物特征特征的生理差异而在不同人口群体间有所变化。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注