ISO/IEC 25066 — 通用行业格式 (CIF) 可用性评估报告

SQuaRE框架下的结构化可用性报告指南

ISO/IEC 25066:2014 定义了可用性评估报告的通用行业格式(CIF),作为 SQuaRE(系统和软件质量需求与评估)框架的重要组成部分。该标准提供了一种标准化的报告结构,使得不同研究、产品和组织之间的可用性测试结果具有可比性。对于用户体验工程师和质量保证团队而言,采用 CIF 可以减少交接过程中的歧义,并使评估工作流程更具可重复性。

CIF 的设计目的是与 ISO 9241-11(可用性定义)和 ISO/IEC 25062(可用性测试报告)互补,但 25066 专门针对同时包含定量指标和定性观察的评估报告。

1. CIF 评估报告的核心结构

CIF 规定了评估报告的七个主要部分:(1)执行摘要、(2)产品描述、(3)评估背景、(4)评估方法、(5)数据分析与结果、(6)发现与建议、(7)附录。每个部分都有其独特的作用,共同确保第三方无需参考外部文档即可重现评估。

从设计工程的角度来看,最关键的章节是”评估方法”。它必须详细说明参与者概况(样本量、纳入标准、领域经验)、选择用于测试的任务、测试环境(实验室、远程、现场)以及收集的指标。如果没有这些细节,数值结果基本上毫无意义——在实验室中用专家用户获得的 90% 任务完成率,与从实地场景中的新手用户收集到的同一数字是不可比较的。

章节 必需元素 工程价值
执行摘要 目标、关键发现、严重性评级 快速干系人对齐
产品描述 目标用户画像、关键功能、硬件/软件环境 确定范围边界
评估背景 使用场景、环境条件、约束 确保可重现性
方法 参与者标准、任务列表、指标、数据收集工具 科学有效性的核心
结果 有效性、效率、满意度数据 定量证据基础
发现与建议 根因分析、优先修复项 可操作的工程输出
附录 原始数据、知情同意书、任务脚本 审计追踪
常见陷阱:省略参与者筛选标准。如果不记录参与者是如何筛选的(例如领域熟悉度、技术素养),该报告无法用于监管提交或跨研究元分析。

2. 可用性度量的三大支柱

CIF 围绕 ISO 9241-11 中定义的三大支柱组织可用性度量:有效性、效率和满意度。有效性通过任务完成率、错误次数和帮助系统调用次数来衡量。效率通常以任务耗时或每次任务点击次数来衡量。满意度通过标准化问卷(如 SUS、QUIS 或自定义李克特量表)收集。

CIF 并未规定任何支柱的单一度量标准,而是鼓励评估者选择对产品风险状况最敏感的度量指标。对于医疗设备 UI,错误严重性可能比任务耗时更重要;对于电子商务结账流程,任务完成率是首要指标。在数据收集前确定这些优先级可以避免事后挑选数据。

按场景推荐的度量指标

使用场景 主要指标 次要指标 最低样本量
医疗设备 UI 错误严重性(次数 × 伤害等级) 任务完成率 每用户组 15-20
消费者移动应用 任务耗时 SUS 分数 每用户组 12
企业仪表板 任务完成率 每次任务点击次数 每用户组 8-10
安全关键型 HMI 响应时间偏差 错误率 每用户组 20+
采用 CIF 结构后,某团队将报告创建时间减少了 40%,跨团队可读性评分在 5 分制上提升了 2.1 分(尼尔森诺曼集团 2020 年案例研究)。

3. 工程设计洞察与实践应用

将 CIF 集成到 CI/CD 流水线中是一项新兴实践。通过在形成性可用性测试中植入自动化日志记录(点击流、会话录制、任务计时中间件),团队可以程序化地生成符合 CIF 的报告草稿。CIF 的结构化特性使其成为模板驱动报告生成器的绝佳目标。

CIF 的建议章节是推动设计变更的主要载体。每条建议都应标记严重性级别(严重、主要、次要),并链接到具体的原始数据点。这将评估报告从单纯的记录转变为可追溯的需求文档,产品负责人和开发人员可以据此采取行动。

绝不允许在完成全面分析之前编写执行摘要。CIF 警告说,先写摘要会引入确认偏差——评估者倾向于寻找支持预先撰写结论的数据。始终先分析数据,再总结。

常见问题

Q: ISO/IEC 25066 和 ISO/IEC 25062 有什么区别?
ISO/IEC 25062 专门针对在受控实验室环境中测量有效性、效率和满意度的可用性测试报告。ISO/IEC 25066 涵盖更广泛的评估方法——包括实地研究、专家评审和远程测试——并提供适用于任何可用性评估方法的通用 CIF 格式。
Q: CIF 能否用于敏捷 UX 冲刺?
可以。虽然完整的 CIF 设计用于总结性评估,但团队可以在冲刺级别的形成性测试中采用轻量级子集(方法、结果、发现)。关键在于保持各冲刺间度量定义的一致性,以便趋势分析保持有效。
Q: 符合 CIF 要求的报告需要多少名参与者?
CIF 没有规定具体数字。它要求你根据评估目标和预期效应量来证明样本量的合理性。对于形成性研究,每个用户组 5-8 名参与者可能足够;对于总结性验证,通常每组 15-20 名。始终引用你的功效分析或已建立的启发式规则。
Q: CIF 是否适用于硬件可用性评估?
当然适用。CIF 与方法无关,已成功应用于医疗设备、工业控制面板、汽车 HMI 和消费电子产品。报告结构保持不变,仅数据收集工具不同(例如,用物理交互的视频编码代替点击流记录)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注