Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC 25022 是 SQuaRE ISO/IEC 2502n 质量度量分体系中的关键标准,定义了如何测量使用质量(quality in use),即特定用户在特定使用环境下,使用产品或系统实现特定目标的 effectiveness(有效性)、efficiency(效率)、satisfaction(满意度)、freedom from risk(风险自由度)和 context coverage(上下文覆盖度)的程度。该标准取代了早期的 ISO/IEC 9126-4:2004,并与 ISO/IEC 25010 中更新的使用质量模型保持一致。
使用质量与其他质量测量形式的区别在于,它关注人机交互的结果而非内在产品属性。产品质量度量(ISO/IEC 25023)考察软件本身——其代码复杂度、响应时间或缺陷计数——而使用质量度量测量的是真实用户在真实环境中使用系统执行真实任务时发生的情况。这种面向结果的视角对于理解系统是否真正为利益相关者创造价值至关重要。
标准定义了按照五个顶层特性及其子特性组织的度量体系,形成一个全面的测量框架。
有效性度量衡量用户实现指定目标的准确度和完整度。典型度量包括任务完成率(成功完成任务的用户比例)、任务执行过程中的错误发生率以及关键错误率。效率度量将这些成果与所消耗的资源关联起来——最常见的是时间(任务持续时间、首次成功使用的时间),但也包括认知努力和物质成本。例如,”完成指定任务的平均时间”是一个通用(G)效率度量,适用于几乎所有系统,而”学会使用指定功能的时间”是一个专用(S)度量,适用于培训密集型应用。
满意度是一个多层面特性,包含四个子特性:有用性(用户认为产品帮助其实现目标的程度)、信任(用户对产品按预期运行的信心)、愉悦度(使用过程中的享受程度)和舒适度(人体工学的可接受性)。每个子特性都有专门的度量,通常基于经过验证的李克特量表心理测量问卷。标准强调满意度测量需要严格的心理测量方法——问卷项目必须展示信度(Cronbach’s alpha >= 0.7)和效度(构念效度、内容效度和效标关联效度)。
| 特性 | 子特性 | 示例度量(通用) | 应用领域 |
|---|---|---|---|
| 有效性 | — | 任务完成率 | 所有交互式系统 |
| 效率 | — | 完成任务的平均时间 | 生产力应用 |
| 满意度 | 有用性 | 用户感知有用性评分 | 企业软件 |
| 满意度 | 信任 | 用户信心评级 | 电子商务、银行 |
| 满意度 | 愉悦度 | enjoyment 评分 | 游戏、创意工具 |
| 满意度 | 舒适度 | 身体不适评级 | VR/AR、移动设备 |
| 风险自由度 | 经济风险 | 每次事故的潜在经济损失 | 金融系统 |
| 风险自由度 | 健康与安全 | 用户伤害事件率 | 医疗器械、汽车 |
| 风险自由度 | 环境 | 环境危害概率 | 工业控制系统 |
| 上下文覆盖度 | 上下文完整度 | 支持的预期上下文比例 | 可访问性关键系统 |
| 上下文覆盖度 | 灵活性 | 可用的额外上下文数量 | 跨平台产品 |
风险自由度度量涉及因产品质量不足而产生的经济、健康安全及环境风险的缓解。这些度量在安全相关系统(ISO 26262、IEC 62304)中尤为关键,因为不良的可用性可能直接导致伤害。上下文覆盖度包括上下文完整度(系统在所有指定上下文中的工作程度)和灵活性(在超出初始指定上下文中的运行能力)。这些度量对于可访问性和包容性设计至关重要,确保系统服务于具有不同能力的用户、在不同的环境中以及跨不断变化的用例。
标准确定了五种解释使用质量度量的方法:符合性(与业务需求比较)、基准测试(与竞品或遗留系统比较)、时间序列分析(跨版本趋势跟踪)、熟练度比较(与专家用户比较)和总体常模(使用历史数据库)。对于工程团队而言,最有影响力的策略是在开发早期建立基线。在原型设计阶段,仅用 5-8 名代表性用户进行形成性评估即可识别 80% 的可用性问题(根据 Nielsen 的 ROI 模型),而为获得统计置信度而进行的总结性评估通常需要每组用户 20 人以上。
标准明确将使用质量测量与四个开发阶段关联:需求规格说明(设定目标值)、原型的形成性评估(早期识别问题)、总结性评估(比较设计方案)和质量保证/控制(验证已实现的系统)。一个实用建议是在系统需求规格说明(SRS)中定量规定使用质量需求,例如:”系统应实现经验用户在首次尝试中 >= 95% 的任务完成率,平均任务时间 <= 3 分钟。"这将使用质量从事后验证活动转变为设计驱动的工程实践。
满意度度量通常依赖于基于问卷的工具。标准强调这些工具必须展示心理测量有效性。对于构建自定义满意度问卷的工程团队,这意味着:使用多项目量表(每个构念 3-5 个项目)而非单一问题,确保项目经过领域专家审查以验证内容效度,使用代表性用户进行预测试,并计算 Cronbach’s alpha 以验证内部一致性。用临时的单一问题满意度评级替代经过适当验证的工具是一种常见的工程捷径,可能在做出关于产品方向的高风险决策时产生误导性结果。