Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC 25059:2023 是 SQuaRE(系统和软件质量需求与评估)系列标准的AI专用扩展,为人工智能系统提供了专门的质量模型。随着AI和机器学习系统在关键基础设施、医疗诊断、自动驾驶和金融决策领域的广泛应用,建立系统化质量评估框架的需求愈发迫切。与传统软件不同,AI系统表现出概率性行为,在运行过程中持续适应,并且由于持续学习可能对相同输入产生不同输出。这些独特特性要求扩展的质量模型能够涵盖透明性、鲁棒性、功能适应性和社会风险缓解等属性。
ISO/IEC 25059 定义的产品质量模型建立在 ISO/IEC 25010 的八个主要特性之上——功能适合性、性能效率、兼容性、可用性、可靠性、安全性、维护性和可移植性——同时引入了专门针对 AI 系统的新的和修改的子特性。
| 特性 | 子特性 | 类型 | 描述 |
|---|---|---|---|
| 功能适合性 | 功能适应性 | 新增 | 从数据或先前操作中准确获取信息并用于未来预测的能力 |
| 功能适合性 | 功能正确性 | 修改 | 以所需精度提供正确结果;AI系统通常不保证100%正确性 |
| 可用性 | 用户可控性 | 新增 | 用户能够及时适当地干预AI系统运行的程度 |
| 可用性 | 透明性 | 新增 | 向相关利益相关者传达AI系统适当信息的程度 |
| 可靠性 | 鲁棒性 | 新增 | 在任何情况下(包括对抗性输入)维持功能正确性的能力 |
| 安全性 | 可干预性 | 新增 | 操作员能够干预以防止伤害或危险的程度 |
功能适应性尤其值得关注,因为它捕捉了AI系统学习和适应的独特能力。与传统软件中固定函数产生确定性输出不同,AI系统可以根据新数据修改其行为。这既带来机遇也带来风险——更高的适应性可以改善结果,但如果具有高不确定性的决策路径基于先前的选择被强化,也可能加剧负面的人类认知偏见。
鲁棒性解决的是在未见数据、有偏数据、对抗性数据或无效数据输入下维持性能的关键问题。这对于安全关键型应用至关重要,因为系统故障可能导致严重后果。该标准特别将鲁棒性与功能安全要求联系起来,引用了 ISO/IEC TR 5469 关于AI特定功能安全指导的内容。
除了产品质量视角外,ISO/IEC 25059 还扩展了使用质量模型,以解决 AI 系统如何与其环境和利益相关者互动的问题。最重要的新增是社会和伦理风险缓解,这是一个在”免受风险”特性下新增的子特性。它涵盖问责性、公平性和非歧视性、透明性和可解释性、职业责任、促进人类价值观、隐私、人类对技术的控制以及环境可持续性。
该标准认识到,AI系统可能产生的社会影响远远超出传统软件质量关注的范畴。例如,有偏见的招聘算法可能使系统性歧视永久化,而不透明的信用评分系统可能在没有任何解释的情况下拒绝服务。因此,使用质量模型不仅考虑系统是否满足其技术规格,还要考虑其运行方式是否符合社会价值观和道德原则。
从工程角度来看,实施 ISO/IEC 25059 质量模型需要以下几个实际考虑:
1. 内建透明性设计: AI 系统应在架构上内置日志记录和自省能力。每个数据转换步骤、模型推理和决策路径都应当是可追溯的。标准建议记录系统分解结构、所使用的 ML 模型、训练和验证数据、性能基准以及管理实践。这种透明性直接支持调试、审计和法规合规。
2. 用户可控性与可干预性: 系统必须提供让人类操作员监控、中断和覆盖 AI 决策的机制。这不仅仅是简单的”杀死开关”——它需要有意义的状態观察和从不安全状态过渡到安全状态的能力。例如,自动驾驶汽车不仅应允许驾驶员接管控制权,还应清晰传达其当前状态和预期操作。
3. 概率系统中的正确性度量: 传统软件可以针对二元通过/失败标准进行验证,但 AI 系统需要统计性能评估。标准引用了 ISO/IEC TS 4213 关于 ML 分类性能评估的方法,包括精确率、召回率、F1 分数和混淆矩阵分析。
| 质量方面 | 传统软件 | AI系统 |
|---|---|---|
| 行为特性 | 确定性、可重复 | 概率性、自适应性 |
| 正确性验证 | 二元(通过/失败) | 统计(置信区间) |
| 失效模式 | 缺陷、崩溃 | 偏差、漂移、对抗性漏洞 |
| 验证方法 | 形式化方法、测试 | 验证数据集、持续监控 |
| 质量演化 | 发布后稳定 | 部署后可能下降或改善 |