ISO/IEC 25059 — AI系统质量模型

软件工程 — SQuaRE — AI系统质量模型(ISO/IEC 25059:2023)

ISO/IEC 25059 简介

ISO/IEC 25059:2023 是 SQuaRE(系统和软件质量需求与评估)系列标准的AI专用扩展,为人工智能系统提供了专门的质量模型。随着AI和机器学习系统在关键基础设施、医疗诊断、自动驾驶和金融决策领域的广泛应用,建立系统化质量评估框架的需求愈发迫切。与传统软件不同,AI系统表现出概率性行为,在运行过程中持续适应,并且由于持续学习可能对相同输入产生不同输出。这些独特特性要求扩展的质量模型能够涵盖透明性、鲁棒性、功能适应性和社会风险缓解等属性。

提示:ISO/IEC 25059 扩展了 ISO/IEC 25010,在保持与现有 SQuaRE 框架完全向后兼容的同时,增加了 AI 特定的子特性。这使组织能够将 AI 质量评估整合到现有的软件质量管理流程中。

AI系统产品质量模型

ISO/IEC 25059 定义的产品质量模型建立在 ISO/IEC 25010 的八个主要特性之上——功能适合性、性能效率、兼容性、可用性、可靠性、安全性、维护性和可移植性——同时引入了专门针对 AI 系统的新的和修改的子特性。

特性 子特性 类型 描述
功能适合性 功能适应性 新增 从数据或先前操作中准确获取信息并用于未来预测的能力
功能适合性 功能正确性 修改 以所需精度提供正确结果;AI系统通常不保证100%正确性
可用性 用户可控性 新增 用户能够及时适当地干预AI系统运行的程度
可用性 透明性 新增 向相关利益相关者传达AI系统适当信息的程度
可靠性 鲁棒性 新增 在任何情况下(包括对抗性输入)维持功能正确性的能力
安全性 可干预性 新增 操作员能够干预以防止伤害或危险的程度

功能适应性尤其值得关注,因为它捕捉了AI系统学习和适应的独特能力。与传统软件中固定函数产生确定性输出不同,AI系统可以根据新数据修改其行为。这既带来机遇也带来风险——更高的适应性可以改善结果,但如果具有高不确定性的决策路径基于先前的选择被强化,也可能加剧负面的人类认知偏见。

鲁棒性解决的是在未见数据、有偏数据、对抗性数据或无效数据输入下维持性能的关键问题。这对于安全关键型应用至关重要,因为系统故障可能导致严重后果。该标准特别将鲁棒性与功能安全要求联系起来,引用了 ISO/IEC TR 5469 关于AI特定功能安全指导的内容。

注意:一个关键的工程见解——鲁棒性和功能正确性之间往往存在权衡。标准引用的研究(Zhang et al., 2019)从理论上证明了这种权衡关系:提高鲁棒性可能会降低准确性,反之亦然。工程师必须根据具体的应用场景谨慎平衡这些相互竞争的目标。

AI系统使用质量模型

除了产品质量视角外,ISO/IEC 25059 还扩展了使用质量模型,以解决 AI 系统如何与其环境和利益相关者互动的问题。最重要的新增是社会和伦理风险缓解,这是一个在”免受风险”特性下新增的子特性。它涵盖问责性、公平性和非歧视性、透明性和可解释性、职业责任、促进人类价值观、隐私、人类对技术的控制以及环境可持续性。

该标准认识到,AI系统可能产生的社会影响远远超出传统软件质量关注的范畴。例如,有偏见的招聘算法可能使系统性歧视永久化,而不透明的信用评分系统可能在没有任何解释的情况下拒绝服务。因此,使用质量模型不仅考虑系统是否满足其技术规格,还要考虑其运行方式是否符合社会价值观和道德原则。

实用方法:ISO/IEC 25059 建议结合基于质量和基于风险的方法(参见附录B)。基于风险的方法与 ISO 31000 和 ISO/IEC 23894 保持一致,允许组织针对尚未建立直接度量的质量特性进行处理——这对于度量方法仍在发展中的新兴AI技术来说很常见。

工程实践见解

从工程角度来看,实施 ISO/IEC 25059 质量模型需要以下几个实际考虑:

1. 内建透明性设计: AI 系统应在架构上内置日志记录和自省能力。每个数据转换步骤、模型推理和决策路径都应当是可追溯的。标准建议记录系统分解结构、所使用的 ML 模型、训练和验证数据、性能基准以及管理实践。这种透明性直接支持调试、审计和法规合规。

2. 用户可控性与可干预性: 系统必须提供让人类操作员监控、中断和覆盖 AI 决策的机制。这不仅仅是简单的”杀死开关”——它需要有意义的状態观察和从不安全状态过渡到安全状态的能力。例如,自动驾驶汽车不仅应允许驾驶员接管控制权,还应清晰传达其当前状态和预期操作。

3. 概率系统中的正确性度量: 传统软件可以针对二元通过/失败标准进行验证,但 AI 系统需要统计性能评估。标准引用了 ISO/IEC TS 4213 关于 ML 分类性能评估的方法,包括精确率、召回率、F1 分数和混淆矩阵分析。

质量方面 传统软件 AI系统
行为特性 确定性、可重复 概率性、自适应性
正确性验证 二元(通过/失败) 统计(置信区间)
失效模式 缺陷、崩溃 偏差、漂移、对抗性漏洞
验证方法 形式化方法、测试 验证数据集、持续监控
质量演化 发布后稳定 部署后可能下降或改善

常见问题解答

问1:ISO/IEC 25059 与 ISO/IEC 25010 之间是什么关系?
ISO/IEC 25059 是 ISO/IEC 25010 针对 AI 系统的应用特定扩展。它继承了 ISO/IEC 25010 的所有特性和子特性,同时增加了新的 AI 特定子特性(功能适应性、用户可控性、透明性、鲁棒性、可干预性),并修改了现有子特性(功能正确性)以考虑 AI 系统的独特属性。
问2:标准中透明性和可解释性有什么区别?
透明性定义为向利益相关者传达有关AI系统的适当信息的程度——它是系统及其文档的一个属性。可解释性虽然相关,但侧重于为特定决策提供可理解的理由。透明性通过提供有关系统内部机制的必要信息来支持可解释性。
问3:ISO/IEC 25059 是否适用于所有类型的 AI 系统?
是的,该质量模型设计为技术中立,适用于各种 AI 方法,包括机器学习、符号推理和混合系统。然而,具体的度量标准和评估方法可能需要根据特定的 AI 技术和应用领域进行调整。
问4:工程师应如何处理质量特性之间的权衡?
标准承认存在权衡(例如鲁棒性和功能正确性之间),并推荐采用基于风险的方法(附录B)来平衡相互竞争的目标。工程师应使用质量模型识别相关特性,然后应用 ISO/IEC 23894 中的风险管理技术,根据具体的应用场景和风险容忍度进行优先级排序和决策。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注