ISO/IEC 25059 — AI系统质量模型

ISO/IEC 25059 简介

ISO/IEC 25059:2023 是 SQuaRE（系统和软件质量需求与评估）系列标准的AI专用扩展，为人工智能系统提供了专门的质量模型。随着AI和机器学习系统在关键基础设施、医疗诊断、自动驾驶和金融决策领域的广泛应用，建立系统化质量评估框架的需求愈发迫切。与传统软件不同，AI系统表现出概率性行为，在运行过程中持续适应，并且由于持续学习可能对相同输入产生不同输出。这些独特特性要求扩展的质量模型能够涵盖透明性、鲁棒性、功能适应性和社会风险缓解等属性。

提示：ISO/IEC 25059 扩展了 ISO/IEC 25010，在保持与现有 SQuaRE 框架完全向后兼容的同时，增加了 AI 特定的子特性。这使组织能够将 AI 质量评估整合到现有的软件质量管理流程中。

AI系统产品质量模型

ISO/IEC 25059 定义的产品质量模型建立在 ISO/IEC 25010 的八个主要特性之上——功能适合性、性能效率、兼容性、可用性、可靠性、安全性、维护性和可移植性——同时引入了专门针对 AI 系统的新的和修改的子特性。

特性	子特性	类型	描述
功能适合性	功能适应性	新增	从数据或先前操作中准确获取信息并用于未来预测的能力
功能适合性	功能正确性	修改	以所需精度提供正确结果；AI系统通常不保证100%正确性
可用性	用户可控性	新增	用户能够及时适当地干预AI系统运行的程度
可用性	透明性	新增	向相关利益相关者传达AI系统适当信息的程度
可靠性	鲁棒性	新增	在任何情况下（包括对抗性输入）维持功能正确性的能力
安全性	可干预性	新增	操作员能够干预以防止伤害或危险的程度

功能适应性尤其值得关注，因为它捕捉了AI系统学习和适应的独特能力。与传统软件中固定函数产生确定性输出不同，AI系统可以根据新数据修改其行为。这既带来机遇也带来风险——更高的适应性可以改善结果，但如果具有高不确定性的决策路径基于先前的选择被强化，也可能加剧负面的人类认知偏见。

鲁棒性解决的是在未见数据、有偏数据、对抗性数据或无效数据输入下维持性能的关键问题。这对于安全关键型应用至关重要，因为系统故障可能导致严重后果。该标准特别将鲁棒性与功能安全要求联系起来，引用了 ISO/IEC TR 5469 关于AI特定功能安全指导的内容。

注意：一个关键的工程见解——鲁棒性和功能正确性之间往往存在权衡。标准引用的研究（Zhang et al., 2019）从理论上证明了这种权衡关系：提高鲁棒性可能会降低准确性，反之亦然。工程师必须根据具体的应用场景谨慎平衡这些相互竞争的目标。

AI系统使用质量模型

除了产品质量视角外，ISO/IEC 25059 还扩展了使用质量模型，以解决 AI 系统如何与其环境和利益相关者互动的问题。最重要的新增是社会和伦理风险缓解，这是一个在”免受风险”特性下新增的子特性。它涵盖问责性、公平性和非歧视性、透明性和可解释性、职业责任、促进人类价值观、隐私、人类对技术的控制以及环境可持续性。

该标准认识到，AI系统可能产生的社会影响远远超出传统软件质量关注的范畴。例如，有偏见的招聘算法可能使系统性歧视永久化，而不透明的信用评分系统可能在没有任何解释的情况下拒绝服务。因此，使用质量模型不仅考虑系统是否满足其技术规格，还要考虑其运行方式是否符合社会价值观和道德原则。

实用方法：ISO/IEC 25059 建议结合基于质量和基于风险的方法（参见附录B）。基于风险的方法与 ISO 31000 和 ISO/IEC 23894 保持一致，允许组织针对尚未建立直接度量的质量特性进行处理——这对于度量方法仍在发展中的新兴AI技术来说很常见。

工程实践见解

从工程角度来看，实施 ISO/IEC 25059 质量模型需要以下几个实际考虑：

1. 内建透明性设计： AI 系统应在架构上内置日志记录和自省能力。每个数据转换步骤、模型推理和决策路径都应当是可追溯的。标准建议记录系统分解结构、所使用的 ML 模型、训练和验证数据、性能基准以及管理实践。这种透明性直接支持调试、审计和法规合规。

2. 用户可控性与可干预性： 系统必须提供让人类操作员监控、中断和覆盖 AI 决策的机制。这不仅仅是简单的”杀死开关”——它需要有意义的状態观察和从不安全状态过渡到安全状态的能力。例如，自动驾驶汽车不仅应允许驾驶员接管控制权，还应清晰传达其当前状态和预期操作。

3. 概率系统中的正确性度量： 传统软件可以针对二元通过/失败标准进行验证，但 AI 系统需要统计性能评估。标准引用了 ISO/IEC TS 4213 关于 ML 分类性能评估的方法，包括精确率、召回率、F1 分数和混淆矩阵分析。

质量方面	传统软件	AI系统
行为特性	确定性、可重复	概率性、自适应性
正确性验证	二元（通过/失败）	统计（置信区间）
失效模式	缺陷、崩溃	偏差、漂移、对抗性漏洞
验证方法	形式化方法、测试	验证数据集、持续监控
质量演化	发布后稳定	部署后可能下降或改善

常见问题解答

问1：ISO/IEC 25059 与 ISO/IEC 25010 之间是什么关系？
ISO/IEC 25059 是 ISO/IEC 25010 针对 AI 系统的应用特定扩展。它继承了 ISO/IEC 25010 的所有特性和子特性，同时增加了新的 AI 特定子特性（功能适应性、用户可控性、透明性、鲁棒性、可干预性），并修改了现有子特性（功能正确性）以考虑 AI 系统的独特属性。

问2：标准中透明性和可解释性有什么区别？
透明性定义为向利益相关者传达有关AI系统的适当信息的程度——它是系统及其文档的一个属性。可解释性虽然相关，但侧重于为特定决策提供可理解的理由。透明性通过提供有关系统内部机制的必要信息来支持可解释性。

问3：ISO/IEC 25059 是否适用于所有类型的 AI 系统？
是的，该质量模型设计为技术中立，适用于各种 AI 方法，包括机器学习、符号推理和混合系统。然而，具体的度量标准和评估方法可能需要根据特定的 AI 技术和应用领域进行调整。

问4：工程师应如何处理质量特性之间的权衡？
标准承认存在权衡（例如鲁棒性和功能正确性之间），并推荐采用基于风险的方法（附录B）来平衡相互竞争的目标。工程师应使用质量模型识别相关特性，然后应用 ISO/IEC 23894 中的风险管理技术，根据具体的应用场景和风险容忍度进行优先级排序和决策。

📥 标准文件下载

🔒

请等待 10 秒，广告加载完成后将显示下载链接

暂无下载文件