Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC TS 25058:2022 是 SQuaRE 框架向人工智能系统领域扩展的一个重要里程碑。随着人工智能系统——特别是基于机器学习的系统——被嵌入到从医疗诊断到自动驾驶再到金融决策的关键应用中,对结构化、多维度的 AI 系统质量评估方法的需求变得迫切。传统的软件质量模型不足以满足 AI 系统的需求,因为 AI 行为是从数据中学习而非显式编程获得的,这引入了关于训练数据质量、模型鲁棒性、可解释性和公平性等独特的质量考量。
TS 25058 将 ISO/IEC 25010 质量模型框架调整适应于 AI 系统的独特特征。它引入了新的与 AI 相关的质量特性和子特性,优化了现有特性以解决 AI 特有的问题,并定义了适合评估 AI 系统质量的度量方法。该规范涵盖了完整的 AI 系统生命周期——从数据收集和模型训练到部署、监控和重新训练——认识到 AI 质量不是静态属性,而必须在数据分布变化和运营环境演变时持续评估。
该规范与其他 ISO/IEC AI 标准保持紧密一致,包括 ISO/IEC 22989(AI 概念和术语)、ISO/IEC 23053(机器学习框架)以及新兴的 ISO/IEC 42001(AI 管理体系)。这些标准共同构成了 AI 系统的全面治理框架。
与传统软件质量主要取决于代码正确性不同,AI 系统质量从根本上由训练数据的质量决定。TS 25058 定义了必须作为 AI 系统质量评估一部分评估的数据质量特性:
| 特性 | AI 特有子特性 | 评估方法 |
|---|---|---|
| 数据适合性 | 数据完整性、数据代表性、数据平衡性、数据相关性 | 训练数据分布的统计分析;与目标人群统计特征的比较;特征空间覆盖率分析 |
| 数据准确性 | 标签准确性、特征准确性、标注一致性 | 标注者间一致性度量(Cohen’s kappa、Fleiss’ kappa);用于标签验证的保留验证集 |
| 数据时效性 | 数据新鲜度、概念漂移检测、数据及时性 | 随时间监控预测准确性;实施漂移检测算法(PSI、KS 检验);跟踪数据年龄分布 |
| 数据来源 | 来源可追溯性、转换透明性、谱系完整性 | 维护数据谱系文档;实施数据版本控制;审计数据收集和处理管道 |
除了数据质量,TS 25058 还定义了针对 AI/ML 模型特有属性的模型特定质量特性:
| 特性 | 描述 | 测量方法 |
|---|---|---|
| 模型准确性 | 模型输出与正确或预期值匹配的程度 | 在代表性测试集上评估的标准 ML 指标(精确率、召回率、F1、AUC-ROC、MAE、RMSE);按相关子组进行分解 |
| 模型鲁棒性 | 在扰动输入或变化条件下保持预测质量的能力 | 对抗性测试(FGSM、PGD);噪声注入测试;分布漂移鲁棒性评估;分布外检测性能 |
| 可解释性 | 模型决策可以被人类理解的程度 | 特征重要性分析(SHAP、LIME);反事实解释生成;针对不同利益相关者群体的可解释性度量 |
| 公平性与偏差 | 模型决策不受系统性歧视的程度 | 统计均等、均等机会、均等化几率、人口统计均等度量;跨受保护属性的偏差审计 |
| 不确定性量化 | 模型准确传达其预测置信度的程度 | 期望校准误差(ECE);可靠性图;回归任务的置信区间覆盖率 |
TS 25058 提供了一个应在 AI 系统开发生命周期中集成的质量框架。在设计阶段,质量模型特性用于指导需求规格说明——团队应明确记录哪些质量特性是相关的、要达成的目标水平以及要使用的评估方法。这种主动方法防止了将质量评估视为事后活动的常见陷阱。
在数据准备阶段,团队应根据 TS 25058 评估数据质量特性,记录数据来源,评估代表性,并验证标签质量。在此阶段发现的数据质量问题比在模型部署后发现的问题解决成本低得多。
在模型开发和评估阶段,模型质量特性提供了一个超越简单准确性指标的综合评估框架。团队应跨所有相关特性评估模型——鲁棒性、可解释性、公平性和不确定性——而不仅仅是预测性能。这种多维度评估往往揭示出权衡关系:提高鲁棒性可能略微降低准确性,增加公平性可能需要为某些群体接受更高的错误率。这些权衡应该被明确记录和管理。
在部署和运营阶段,TS 25058 指导实施模型质量退化的持续监控。关键的监控元素包括数据漂移检测、预测分布监控和定期重新训练触发。该规范强调 AI 系统质量不是一次性评估,而是一个必须跟上变化的数据分布和运营环境的持续过程。
对于实施 TS 25058 的工程师来说,一个实际的起点是创建一份 AI 系统质量规范文档,将模型中的每个相关质量特性映射到具体的度量、目标值、评估方法和监控方法。该文档作为开发团队、运营团队和业务利益相关者之间的质量契约,为 AI 系统在其运营生命周期内的行为建立共同期望。