Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
可靠的评估是可信呈现攻击检测的基石。没有标准化测试协议,就不可能比较PAD系统、验证安全声明或理解部署技术的局限性。ISO/IEC 29147:2022 建立了跨所有生物特征模态PAD系统的综合评估框架,定义了测试协议、数据集要求、统计验证方法和报告格式,使PAD性能评估严谨且可重复。
标准将PAD评估分为三个层级。第一级——算法评估在受控条件下针对数字呈现数据测试PAD算法,通常使用预先录制的攻击和真实数据集。第二级——运行评估在模拟运行条件的实验室环境中测试完整采集和PAD系统,包括光照、定位和环境因素的变化。第三级——现场评估在实际运行环境中用真实用户测试部署系统,捕获包括用户接受度和可用性影响在内的真实世界性能数据。
标准定义了评估中使用的攻击种类选择和记录的严格要求。对于每种攻击种类(例如人脸PAD的”打印照片”),评估必须指定呈现仪器(例如特定打印机型号和纸张类型)。标准要求每种攻击种类至少三种不同呈现仪器,以确保结果不特定于单一设备。对于制造伪体,必须测试来自不同生产批次的多个制造批次以考虑制造变异性。
标准提供了基于所需统计置信水平的样本量确定指南。对于目标APCER为2%且置信水平95%的第一级评估,每种攻击种类需要至少约150次攻击呈现。数据集必须包含代表目标人群中预期全部人口和生理变异性的多样化真实呈现,最小样本量使用二项比例置信区间计算。标准强调使用不相交的数据集进行开发和评估,以避免过拟合。
| 评估层级 | 最少攻击种类 | 每种最少呈现仪器 | 最少真实受试者 | 典型时长 |
|---|---|---|---|---|
| 第一级(算法) | 3 | 3 | 100 | 2-4周 |
| 第二级(运行) | 5 | 3 | 200 | 4-8周 |
| 第三级(现场) | 所有相关 | 按可用 | 500+ | 3-12个月 |
标准规定了使用适当置信区间估计APCER和BPCER的统计方法。对于小样本量或低错误率,推荐精确二项置信区间(Clopper-Pearson方法)。对于较大数据集,可使用连续性校正的正态近似区间。标准还定义了PAD系统统计比较的方法,包括配对比较的McNemar检验和性能差异置信区间的自助重采样。
实施稳健的PAD评估项目需要大量投资于测试基础设施、数据收集和统计专业知识。标准为不同成熟度的组织提供了实用指导,从进行基本第一级评估的小型供应商到进行综合第三级评估的大型测试实验室。
标准引入了泛化评估的概念——测试PAD系统针对训练数据中未明确包含的攻击类型。这对评估实际鲁棒性至关重要,因为攻击者必然使用系统开发期间未预料到的技术。标准建议每个评估层级至少保留一种攻击种类作为”零日”攻击,对系统开发者未知,以明确衡量泛化能力。
从报告角度,标准强制要求PAD评估结果包括总体性能指标和漏洞概况——按种类细分的APCER,识别系统最为脆弱的具体攻击类型。这种漏洞概况使系统集成商能够了解与每种攻击类型相关的残余风险,并在需要时实施补偿控制。结果还必须附有评估条件的明确说明,包括PAD决策阈值、采集硬件、环境条件和受试者人口统计信息。