ISO/IEC 25066 — 通用行业格式 (CIF) 可用性评估报告

ISO/IEC 25066:2014 定义了可用性评估报告的通用行业格式（CIF），作为 SQuaRE（系统和软件质量需求与评估）框架的重要组成部分。该标准提供了一种标准化的报告结构，使得不同研究、产品和组织之间的可用性测试结果具有可比性。对于用户体验工程师和质量保证团队而言，采用 CIF 可以减少交接过程中的歧义，并使评估工作流程更具可重复性。

CIF 的设计目的是与 ISO 9241-11（可用性定义）和 ISO/IEC 25062（可用性测试报告）互补，但 25066 专门针对同时包含定量指标和定性观察的评估报告。

1. CIF 评估报告的核心结构

CIF 规定了评估报告的七个主要部分：（1）执行摘要、（2）产品描述、（3）评估背景、（4）评估方法、（5）数据分析与结果、（6）发现与建议、（7）附录。每个部分都有其独特的作用，共同确保第三方无需参考外部文档即可重现评估。

从设计工程的角度来看，最关键的章节是”评估方法”。它必须详细说明参与者概况（样本量、纳入标准、领域经验）、选择用于测试的任务、测试环境（实验室、远程、现场）以及收集的指标。如果没有这些细节，数值结果基本上毫无意义——在实验室中用专家用户获得的 90% 任务完成率，与从实地场景中的新手用户收集到的同一数字是不可比较的。

章节	必需元素	工程价值
执行摘要	目标、关键发现、严重性评级	快速干系人对齐
产品描述	目标用户画像、关键功能、硬件/软件环境	确定范围边界
评估背景	使用场景、环境条件、约束	确保可重现性
方法	参与者标准、任务列表、指标、数据收集工具	科学有效性的核心
结果	有效性、效率、满意度数据	定量证据基础
发现与建议	根因分析、优先修复项	可操作的工程输出
附录	原始数据、知情同意书、任务脚本	审计追踪

常见陷阱：省略参与者筛选标准。如果不记录参与者是如何筛选的（例如领域熟悉度、技术素养），该报告无法用于监管提交或跨研究元分析。

2. 可用性度量的三大支柱

CIF 围绕 ISO 9241-11 中定义的三大支柱组织可用性度量：有效性、效率和满意度。有效性通过任务完成率、错误次数和帮助系统调用次数来衡量。效率通常以任务耗时或每次任务点击次数来衡量。满意度通过标准化问卷（如 SUS、QUIS 或自定义李克特量表）收集。

CIF 并未规定任何支柱的单一度量标准，而是鼓励评估者选择对产品风险状况最敏感的度量指标。对于医疗设备 UI，错误严重性可能比任务耗时更重要；对于电子商务结账流程，任务完成率是首要指标。在数据收集前确定这些优先级可以避免事后挑选数据。

按场景推荐的度量指标

使用场景	主要指标	次要指标	最低样本量
医疗设备 UI	错误严重性（次数 × 伤害等级）	任务完成率	每用户组 15-20
消费者移动应用	任务耗时	SUS 分数	每用户组 12
企业仪表板	任务完成率	每次任务点击次数	每用户组 8-10
安全关键型 HMI	响应时间偏差	错误率	每用户组 20+

采用 CIF 结构后，某团队将报告创建时间减少了 40%，跨团队可读性评分在 5 分制上提升了 2.1 分（尼尔森诺曼集团 2020 年案例研究）。

3. 工程设计洞察与实践应用

将 CIF 集成到 CI/CD 流水线中是一项新兴实践。通过在形成性可用性测试中植入自动化日志记录（点击流、会话录制、任务计时中间件），团队可以程序化地生成符合 CIF 的报告草稿。CIF 的结构化特性使其成为模板驱动报告生成器的绝佳目标。

CIF 的建议章节是推动设计变更的主要载体。每条建议都应标记严重性级别（严重、主要、次要），并链接到具体的原始数据点。这将评估报告从单纯的记录转变为可追溯的需求文档，产品负责人和开发人员可以据此采取行动。

绝不允许在完成全面分析之前编写执行摘要。CIF 警告说，先写摘要会引入确认偏差——评估者倾向于寻找支持预先撰写结论的数据。始终先分析数据，再总结。

常见问题

Q: ISO/IEC 25066 和 ISO/IEC 25062 有什么区别？
ISO/IEC 25062 专门针对在受控实验室环境中测量有效性、效率和满意度的可用性测试报告。ISO/IEC 25066 涵盖更广泛的评估方法——包括实地研究、专家评审和远程测试——并提供适用于任何可用性评估方法的通用 CIF 格式。

Q: CIF 能否用于敏捷 UX 冲刺？
可以。虽然完整的 CIF 设计用于总结性评估，但团队可以在冲刺级别的形成性测试中采用轻量级子集（方法、结果、发现）。关键在于保持各冲刺间度量定义的一致性，以便趋势分析保持有效。

Q: 符合 CIF 要求的报告需要多少名参与者？
CIF 没有规定具体数字。它要求你根据评估目标和预期效应量来证明样本量的合理性。对于形成性研究，每个用户组 5-8 名参与者可能足够；对于总结性验证，通常每组 15-20 名。始终引用你的功效分析或已建立的启发式规则。

Q: CIF 是否适用于硬件可用性评估？
当然适用。CIF 与方法无关，已成功应用于医疗设备、工业控制面板、汽车 HMI 和消费电子产品。报告结构保持不变，仅数据收集工具不同（例如，用物理交互的视频编码代替点击流记录）。

📥 标准文件下载

🔒

请等待 10 秒，广告加载完成后将显示下载链接

暂无下载文件