ISO/IEC 25022:使用质量测量标准详解

系统和软件工程 SQuaRE 质量度量分体系 — 从用户角度测量软件质量

一、理解使用质量测量

ISO/IEC 25022 是 SQuaRE ISO/IEC 2502n 质量度量分体系中的关键标准,定义了如何测量使用质量(quality in use),即特定用户在特定使用环境下,使用产品或系统实现特定目标的 effectiveness(有效性)、efficiency(效率)、satisfaction(满意度)、freedom from risk(风险自由度)和 context coverage(上下文覆盖度)的程度。该标准取代了早期的 ISO/IEC 9126-4:2004,并与 ISO/IEC 25010 中更新的使用质量模型保持一致。

使用质量与其他质量测量形式的区别在于,它关注人机交互的结果而非内在产品属性。产品质量度量(ISO/IEC 25023)考察软件本身——其代码复杂度、响应时间或缺陷计数——而使用质量度量测量的是真实用户在真实环境中使用系统执行真实任务时发生的情况。这种面向结果的视角对于理解系统是否真正为利益相关者创造价值至关重要。

使用质量不仅取决于软件或计算机系统的产品质量,还取决于使用产品的特定上下文——包括用户因素、任务因素以及物理和社会环境因素。只有在相同的使用环境下进行的度量比较才具有效性。

二、五大使用质量特性及其度量

标准定义了按照五个顶层特性及其子特性组织的度量体系,形成一个全面的测量框架。

2.1 有效性(Effectiveness)与效率(Efficiency)

有效性度量衡量用户实现指定目标的准确度和完整度。典型度量包括任务完成率(成功完成任务的用户比例)、任务执行过程中的错误发生率以及关键错误率。效率度量将这些成果与所消耗的资源关联起来——最常见的是时间(任务持续时间、首次成功使用的时间),但也包括认知努力和物质成本。例如,”完成指定任务的平均时间”是一个通用(G)效率度量,适用于几乎所有系统,而”学会使用指定功能的时间”是一个专用(S)度量,适用于培训密集型应用。

2.2 满意度(Satisfaction)

满意度是一个多层面特性,包含四个子特性:有用性(用户认为产品帮助其实现目标的程度)、信任(用户对产品按预期运行的信心)、愉悦度(使用过程中的享受程度)和舒适度(人体工学的可接受性)。每个子特性都有专门的度量,通常基于经过验证的李克特量表心理测量问卷。标准强调满意度测量需要严格的心理测量方法——问卷项目必须展示信度(Cronbach’s alpha >= 0.7)和效度(构念效度、内容效度和效标关联效度)。

特性 子特性 示例度量(通用) 应用领域
有效性 任务完成率 所有交互式系统
效率 完成任务的平均时间 生产力应用
满意度 有用性 用户感知有用性评分 企业软件
满意度 信任 用户信心评级 电子商务、银行
满意度 愉悦度 enjoyment 评分 游戏、创意工具
满意度 舒适度 身体不适评级 VR/AR、移动设备
风险自由度 经济风险 每次事故的潜在经济损失 金融系统
风险自由度 健康与安全 用户伤害事件率 医疗器械、汽车
风险自由度 环境 环境危害概率 工业控制系统
上下文覆盖度 上下文完整度 支持的预期上下文比例 可访问性关键系统
上下文覆盖度 灵活性 可用的额外上下文数量 跨平台产品

2.3 风险自由度与上下文覆盖度

风险自由度度量涉及因产品质量不足而产生的经济、健康安全及环境风险的缓解。这些度量在安全相关系统(ISO 26262、IEC 62304)中尤为关键,因为不良的可用性可能直接导致伤害。上下文覆盖度包括上下文完整度(系统在所有指定上下文中的工作程度)和灵活性(在超出初始指定上下文中的运行能力)。这些度量对于可访问性和包容性设计至关重要,确保系统服务于具有不同能力的用户、在不同的环境中以及跨不断变化的用例。

不可接受的风险自由度水平可能由不良的可用性水平导致,而不良的可用性又可能由不良的产品可用性水平或其他产品质量特性水平导致。在设计安全关键系统时,使用质量度量必须按照 ISO 14971 或 ISO 26262 的定义集成到风险管理过程中。

三、使用质量计划的工程设计洞察

3.1 标准化与基准测试策略

标准确定了五种解释使用质量度量的方法:符合性(与业务需求比较)、基准测试(与竞品或遗留系统比较)、时间序列分析(跨版本趋势跟踪)、熟练度比较(与专家用户比较)和总体常模(使用历史数据库)。对于工程团队而言,最有影响力的策略是在开发早期建立基线。在原型设计阶段,仅用 5-8 名代表性用户进行形成性评估即可识别 80% 的可用性问题(根据 Nielsen 的 ROI 模型),而为获得统计置信度而进行的总结性评估通常需要每组用户 20 人以上。

在原型设计阶段用 5-8 名代表性用户进行形成性评估可识别大约 80% 的可用性问题。这种早期投入可以大幅降低使用质量缺陷的成本——发布后修复可用性问题的成本是设计阶段修复的 10-100 倍。

3.2 将使用质量集成到开发生命周期中

标准明确将使用质量测量与四个开发阶段关联:需求规格说明(设定目标值)、原型的形成性评估(早期识别问题)、总结性评估(比较设计方案)和质量保证/控制(验证已实现的系统)。一个实用建议是在系统需求规格说明(SRS)中定量规定使用质量需求,例如:”系统应实现经验用户在首次尝试中 >= 95% 的任务完成率,平均任务时间 <= 3 分钟。"这将使用质量从事后验证活动转变为设计驱动的工程实践。

3.3 满意度测量中的心理测量严谨性

满意度度量通常依赖于基于问卷的工具。标准强调这些工具必须展示心理测量有效性。对于构建自定义满意度问卷的工程团队,这意味着:使用多项目量表(每个构念 3-5 个项目)而非单一问题,确保项目经过领域专家审查以验证内容效度,使用代表性用户进行预测试,并计算 Cronbach’s alpha 以验证内部一致性。用临时的单一问题满意度评级替代经过适当验证的工具是一种常见的工程捷径,可能在做出关于产品方向的高风险决策时产生误导性结果。

四、常见问题解答

问:使用质量与可用性有何不同?
答:在 SQuaRE 质量模型中,可用性是使用质量的一个子集,由有效性、效率、满意度和上下文覆盖度组成。使用质量还额外包括风险自由度。ISO 9241-11 将可用性定义为有效性、效率和满意度,而 SQuaRE 模型将其扩展以涵盖更广泛的利益相关者关注点,包括经济、健康和环境风险缓解。
问:在系统完全实现之前能否测量使用质量?
答:可以。使用质量可以在开发阶段通过原型进行估计。使用低保真或高保真原型进行形成性评估可以早期识别使用质量问题。然而,使用质量的确定性测量需要在预期的环境下运行已实现的系统,并由真实用户执行真实任务。
问:ISO/IEC 25022 与 ISO 9241-11 有什么关系?
答:ISO/IEC 25022 和 ISO 9241-11 在有效性、效率和满意度的定义上兼容。ISO/IEC 25022 中的使用质量度量可以作为 ISO 9241-11 中定义的可用性度量使用。标准的附录 C 提供了关于这种对齐的详细指导。
问:可靠的使用质量评估需要多少用户?
答:对于以识别问题为目的的形成性评估,每组用户 5-8 名代表性用户通常就足够了。对于以统计验证目标值为目的的总结性评估,所需样本量取决于期望的置信水平和效应量,但根据 ISO/TS 20282-2 指南,通常每组需要 20-40 名用户。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注