ISO/IEC TS 25058:2022 — AI系统的质量评估与度量

ISO/IEC TS 25058 — 技术规范概述

ISO/IEC TS 25058 概述

ISO/IEC TS 25058:2022 是 SQuaRE 框架向人工智能系统领域扩展的一个重要里程碑。随着人工智能系统——特别是基于机器学习的系统——被嵌入到从医疗诊断到自动驾驶再到金融决策的关键应用中,对结构化、多维度的 AI 系统质量评估方法的需求变得迫切。传统的软件质量模型不足以满足 AI 系统的需求,因为 AI 行为是从数据中学习而非显式编程获得的,这引入了关于训练数据质量、模型鲁棒性、可解释性和公平性等独特的质量考量。

AI 系统可能以传统软件无法做到的方式失效:它们可能对受保护群体表现出偏见,以不可预期的方式发生性能退化,产生自信但错误的输出,或者在训练数据中未代表的边界情况下行为不可预测。这些故障模式需要专门为 AI 设计的质量评估方法。

TS 25058 将 ISO/IEC 25010 质量模型框架调整适应于 AI 系统的独特特征。它引入了新的与 AI 相关的质量特性和子特性,优化了现有特性以解决 AI 特有的问题,并定义了适合评估 AI 系统质量的度量方法。该规范涵盖了完整的 AI 系统生命周期——从数据收集和模型训练到部署、监控和重新训练——认识到 AI 质量不是静态属性,而必须在数据分布变化和运营环境演变时持续评估。

该规范与其他 ISO/IEC AI 标准保持紧密一致,包括 ISO/IEC 22989(AI 概念和术语)、ISO/IEC 23053(机器学习框架)以及新兴的 ISO/IEC 42001(AI 管理体系)。这些标准共同构成了 AI 系统的全面治理框架。

AI 特有质量特性

数据质量与适用性

与传统软件质量主要取决于代码正确性不同,AI 系统质量从根本上由训练数据的质量决定。TS 25058 定义了必须作为 AI 系统质量评估一部分评估的数据质量特性:

特性 AI 特有子特性 评估方法
数据适合性 数据完整性、数据代表性、数据平衡性、数据相关性 训练数据分布的统计分析;与目标人群统计特征的比较;特征空间覆盖率分析
数据准确性 标签准确性、特征准确性、标注一致性 标注者间一致性度量(Cohen’s kappa、Fleiss’ kappa);用于标签验证的保留验证集
数据时效性 数据新鲜度、概念漂移检测、数据及时性 随时间监控预测准确性;实施漂移检测算法(PSI、KS 检验);跟踪数据年龄分布
数据来源 来源可追溯性、转换透明性、谱系完整性 维护数据谱系文档;实施数据版本控制;审计数据收集和处理管道
AI 系统在生产中失败的头号原因是数据分布漂移——训练数据与真实世界部署数据之间的差距。TS 25058 强调持续监控数据质量是 AI 系统质量管理的重要组成部分,而非开发阶段的一次性评估。

模型质量特性

除了数据质量,TS 25058 还定义了针对 AI/ML 模型特有属性的模型特定质量特性:

特性 描述 测量方法
模型准确性 模型输出与正确或预期值匹配的程度 在代表性测试集上评估的标准 ML 指标(精确率、召回率、F1、AUC-ROC、MAE、RMSE);按相关子组进行分解
模型鲁棒性 在扰动输入或变化条件下保持预测质量的能力 对抗性测试(FGSM、PGD);噪声注入测试;分布漂移鲁棒性评估;分布外检测性能
可解释性 模型决策可以被人类理解的程度 特征重要性分析(SHAP、LIME);反事实解释生成;针对不同利益相关者群体的可解释性度量
公平性与偏差 模型决策不受系统性歧视的程度 统计均等、均等机会、均等化几率、人口统计均等度量;跨受保护属性的偏差审计
不确定性量化 模型准确传达其预测置信度的程度 期望校准误差(ECE);可靠性图;回归任务的置信区间覆盖率

在 AI 系统开发中实施 TS 25058

TS 25058 提供了一个应在 AI 系统开发生命周期中集成的质量框架。在设计阶段,质量模型特性用于指导需求规格说明——团队应明确记录哪些质量特性是相关的、要达成的目标水平以及要使用的评估方法。这种主动方法防止了将质量评估视为事后活动的常见陷阱。

数据准备阶段,团队应根据 TS 25058 评估数据质量特性,记录数据来源,评估代表性,并验证标签质量。在此阶段发现的数据质量问题比在模型部署后发现的问题解决成本低得多。

模型开发和评估阶段,模型质量特性提供了一个超越简单准确性指标的综合评估框架。团队应跨所有相关特性评估模型——鲁棒性、可解释性、公平性和不确定性——而不仅仅是预测性能。这种多维度评估往往揭示出权衡关系:提高鲁棒性可能略微降低准确性,增加公平性可能需要为某些群体接受更高的错误率。这些权衡应该被明确记录和管理。

领先的 AI 工程团队采用受 TS 25058 启发的”模型卡”方法,记录每个模型在多个质量维度上的表现、预期用例、局限性和伦理考量。这种做法提高了透明度并支持负责任的 AI 部署。

部署和运营阶段,TS 25058 指导实施模型质量退化的持续监控。关键的监控元素包括数据漂移检测、预测分布监控和定期重新训练触发。该规范强调 AI 系统质量不是一次性评估,而是一个必须跟上变化的数据分布和运营环境的持续过程。

对于实施 TS 25058 的工程师来说,一个实际的起点是创建一份 AI 系统质量规范文档,将模型中的每个相关质量特性映射到具体的度量、目标值、评估方法和监控方法。该文档作为开发团队、运营团队和业务利益相关者之间的质量契约,为 AI 系统在其运营生命周期内的行为建立共同期望。

常见问题解答

问1:TS 25058 与欧盟 AI 法案要求有何关系?
答:TS 25058 提供了技术性的质量评估方法,可以支持对欧盟 AI 法案等监管要求的合规性。关于透明度、公平性和鲁棒性的质量特性直接回应了监管关注,尽管 TS 25058 是技术规范而非监管合规标准。
问2:TS 25058 是否适用于生成式 AI 模型?
答:核心质量模型适用于生成式 AI,但针对生成式模型特有的额外质量考量——如幻觉率、输出连贯性、安全对齐和内容审核有效性——可能需要当前规范中定义之外的补充评估方法。
问3:如何根据 TS 25058 衡量可解释性?
答:TS 25058 通过多个维度来评估可解释性:特征归因质量(归因方法反映模型行为的准确程度)、解释稳定性(类似输入的解释变化程度)和用户理解度(用户能否基于解释正确预测模型行为)。
问4:TS 25058 是否适用于传统的基于规则的 AI 系统?
答:是的,尽管对数据质量和模型鲁棒性的强调更适用于基于 ML 的系统。对于基于规则的 AI 系统,基础 SQuaRE 模型中关于功能适合性、正确性和可维护性的质量特性通常更适用,而对数据驱动特性的强调较少。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注