ISO/IEC 26137:2023 为人工智能系统的验证建立了权威框架。AI 系统验证与传统软件验证存在根本性不同,因为 AI 系统的行为是从数据中学习的,而不是显式编程的。这意味着验证不仅必须解决功能正确性,还必须解决统计性能、泛化能力、对分布偏移的鲁棒性、跨人群的公平性以及输出的可解释性。该标准提供了一套全面的验证方法,涵盖数据验证、模型验证、行为验证和运营验证,确保 AI 系统在部署前适合其用途,并在整个运营生命周期中保持这种状态。
AI验证本质上是统计性的,而不是确定性的。与传统软件中测试用例具有二元通过/失败结果不同,AI验证需要基于总体性能指标的统计置信区间和验收标准。
该标准强调独立验证的重要性——开发AI系统的团队不应成为唯一的验证者。独立性减少确认偏差,增加验证结果的可信度。
验证数据必须谨慎管理,以防止训练集和验证集之间的数据泄漏。该标准为不同AI应用提供了适用于时间和空间数据拆分技术的具体指导。
在数据收集阶段就开始规划验证,而不是在模型训练之后。验证要求应从项目一开始就驱动数据采集策略、标注质量标准和测试场景设计。
1. 验证范围与类型
该标准定义了四种相互关联的验证类型:数据验证确保用于训练、验证和测试的数据集满足质量要求,包括完整性、一致性、准确性、代表性和无偏差;模型验证评估训练好的模型在预定义指标和验收标准下的性能,涵盖准确率、精确率、召回率、F1分数、ROC-AUC以及应用特定指标;行为验证检查 AI 系统在边缘情况、对抗条件下以及不同人口群体中的行为,以识别故障模式和偏差;运营验证在预期的部署环境中评估 AI 系统,包括与现有系统的集成、人机交互以及在现实运营条件下的性能。
数据验证是最被忽视但又最关键的验证类型。许多AI故障可以追溯到数据质量问题——标签错误、采样偏差、时间不匹配——由于数据验证被视为低优先级活动而未被发现。
对于模型验证,不要依赖单一指标。一个模型可以达到高准确率,但由于校准不良、各子组间高方差或对微小输入扰动的脆弱性而完全无法使用。
行为验证应包括对模型对分布外输入响应的系统性测试。该标准为不同数据模态生成有效的OOD测试用例提供了指导。
运营验证是部署前的最后一道关卡,应尽可能接近地再现生产条件。这包括现实的数据量、延迟约束和用户交互模式。
2. 验证指标与验收标准
ISO/IEC 26137 提供了一套全面的验证指标目录,按 AI 任务类型(分类、回归、聚类、生成、强化学习)和质量属性(性能、鲁棒性、公平性、可解释性、安全性)组织。对于分类系统,指标包括准确率、精确率、召回率、F1分数、混淆矩阵分析、ROC分析、精确率-召回率曲线、校准误差和子组特定性能分析。对于回归系统,指标包括平均绝对误差(MAE)、均方根误差(RMSE)、R平方、预测区间和残差分析。该标准还引入了 AI 特定指标,如分布偏移检测(总体稳定性指数、KL散度)、模型不确定性量化(预测熵、蒙特卡洛丢弃不确定性)和公平性指标(人口统计均等、机会均等、均等概率)。
| 验证类型 |
关键指标 |
验收标准依据 |
验证频率 |
| 数据验证 |
完整性、准确性、代表性、偏差指标 |
领域要求、监管标准 |
每次数据更新周期 |
| 模型验证 |
准确率、精确率、召回率、F1、AUC-ROC、校准误差 |
业务要求、风险承受能力 |
每次训练运行 |
| 行为验证 |
边缘案例通过率、对抗鲁棒性、子组公平性 |
风险评估、监管要求 |
部署前及重大变更后 |
| 运营验证 |
延迟、吞吐量、可用性、用户满意度 |
SLA要求、运营约束 |
部署前及运营期间定期 |
该标准提供了设置验收标准的详细指导,强调标准应:(a)可测量——用清晰的指标和阈值定义;(b)依赖上下文——反映特定 AI 应用的风险级别和领域要求;(c)统计基础——考虑抽样变异性和置信区间;(d)多维度——涵盖性能、鲁棒性、公平性和可解释性;(e)可审计——记录清晰的理由和支持证据。验收标准应在验证开始前建立,并应获得相关利益相关者(包括领域专家、风险管理人员和监管机构)的批准。
注意:在看到验证结果后设置验收标准是一种 p-hacking 形式,会使整个验证过程无效。请在验证计划中预先指定所有验收标准,并在任何验证测试开始前进行审查和批准。这不仅包括主要指标,还包括子组分析、边缘案例定义和可接受的性能下降阈值。
3. 验证过程与文档
该标准规定了结构化的验证过程,包括:验证规划(定义范围、指标、验收标准、测试方法和资源需求)、验证执行(按系统顺序进行四种验证类型,记录结果和管理偏差)、验证分析(解释结果、评估符合验收标准的情况、识别不符合项和根本原因分析)、验证报告(生成全面的验证报告,记录所有发现、决策和证据)和验证维护(在 AI 系统的整个运营生命周期中进行持续监控和定期重新验证)。验证报告是一个关键工件,可作为法规合规、审计目的和利益相关者沟通的证据。
验证报告应结构化以服务于多个受众:为管理层提供执行摘要,为工程师提供详细的技术部分,为监管机构提供合规映射。这种多层方法确保报告有用而不是被归档。
验证可追溯性至关重要。每个验证要求应可追溯到系统要求,而系统要求又应可追溯到利益相关者需求。这个可追溯性链是可辩护的验证论证的支柱。
重新验证触发器应预先定义和监控。常见的触发器包括:使用新数据重新训练、算法变更、部署环境变更、现场识别的故障模式和法规更新。
考虑使用从标准要求派生的验证检查表。这些检查表确保验证覆盖的完整性,并为审计准备提供结构化的框架。
常见问题
Q: 根据该标准,AI 上下文中验证和确认之间有什么区别?
A: 确认(Verification)确认 AI 系统构建正确(符合规范),而验证(Validation)确认构建了正确的 AI 系统(满足利益相关者需求并在运营环境中适合用途)。两者都是必需的,但验证范围更广,包括运营和以用户为中心的评估。
Q: ISO/IEC 26137 是否解决大语言模型验证问题?
A: 虽然该标准于 2023 年发布,但其验证框架经过适当裁剪适用于 LLM。LLM 验证的具体考虑包括基于提示的测试、幻觉检测、毒性筛选和对齐评估。该标准的四种验证类型(数据、模型、行为、运营)很好地映射到 LLM 验证需求。
Q: 该标准与欧盟 AI 法案中的验证要求有何关系?
A: 欧盟 AI 法案要求对高风险 AI 系统进行符合性评估,包括验证文档。ISO/IEC 26137 提供了进行支持符合性评估的验证活动的操作方法。使用 26137 的组织能够很好地满足法案中与验证相关的要求。
Q: 验证可以自动化吗?
A: 是的,验证的许多方面可以自动化,包括数据质量检查、模型性能评估、回归测试和漂移监控。然而,该标准强调,解释结果、评估边缘情况和做出验收决策需要人类判断。自动化增强但不替代专家验证。
Q: 验证的最低可接受样本量是多少?
A: 该标准没有规定统一的阈值,但根据所需的置信水平、效应大小和子组分析要求提供统计指导。对于高风险应用,需要更大的样本量来实现统计上显著的子组比较并检测罕见故障模式。
Q: 验证应如何处理持续学习系统?
A: 对于持续学习系统,该标准建议结合初始全面验证和持续验证监控。具体活动包括基于触发器的重新验证、累积性能跟踪以及防止自动重训练导致性能退化的保护措施。