Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
ISO/IEC 25045 是 SQuaRE 系列中质量评估分部(ISO/IEC 2504n)的重要组成部分。它提供了一个专门用于测量软件可靠性中可恢复性子特性的评估模块。该标准对实践工程师特别有价值的地方在于其干扰注入方法——一种系统化的、可重复的方法来量化系统承受运营故障和意外事件并从其中恢复的能力。
标准定义了两个主要的度量:
| 自主等级 | 分数 | 描述 | 检测示例 |
|---|---|---|---|
| 基础级 | 0 | 通过报告和产品手册进行人工管理 | 服务台电话通知操作员用户投诉 |
| 受管级 | 1 | 管理软件实现 IT 任务的自动化 | 操作员监控单一管理控制台 |
| 预测级 | 2 | 工具分析变化并推荐操作 | 自主管理器通知操作员潜在问题 |
| 自适应级 | 3 | 组件共同监控、分析并以最少干预采取措施 | 系统无需人工即检测和分析问题 |
| 自主级 | 4 | 基于业务规则和策略的全自动管理 | 端到端自主检测、分析和恢复 |
评估方法包含三个阶段:基准阶段、测试阶段和检查阶段。基准阶段确定无干扰条件下的正常运营特性。测试阶段在注入干扰的同时运行相同的工作负载。检查阶段验证干扰测试后系统的完整性。
每次干扰注入被组织为一个注入槽,包含五个子区间:注入区间(故障前稳态)、检测区间(检测故障所需时间)、恢复启动区间(开始恢复所需时间)、恢复区间(执行恢复所需时间)和维持区间(恢复后重新建立稳态的时间)。
标准定义了五种必须用于符合性测试的干扰类别:
| 类别 | 示例 | 工程意义 |
|---|---|---|
| 意外关机 | 操作系统关机、进程终止、网络链路故障 | 模拟操作员错误和软件崩溃——最常见的生产事故类型 |
| 资源争用 | CPU 高负载、内存耗尽、I/O 饱和、数据库死锁、失控查询、磁盘满 | 模拟嘈杂邻居场景和资源泄漏——在多租户云环境中日益重要 |
| 数据丢失 | 数据库文件删除、磁盘丢失、表损坏 | 模拟存储故障和意外数据删除——测试备份和恢复机制 |
| 负载激增 | 2倍和10倍用户激增 | 模拟流量峰值(闪群、DDoS、病毒式传播)——测试自动扩展和流量控制 |
| 重启失败 | 启动配置损坏、可执行文件丢失 | 模拟恢复过程本身发生的故障——测试恢复机制的健壮性 |
| 用例 | ISO/IEC 25045 的应用方式 | 现代实现 |
|---|---|---|
| 投产前验证 | 将干扰注入作为系统验证测试的一部分 | 将混沌实验集成到 CI/CD 流水线中 |
| 生产就绪评估 | 对照测试环境评估生产系统的可恢复性 | 游戏日活动和受控爆炸半径实验 |
| 供应商比较 | 使用共同工作负载比较不同解决方案的可恢复性 | 带有故障注入的标准化基准测试套件 |
| SLA 验证 | 验证在干扰条件下是否满足恢复时间目标(RTO) | 使用故障注入场景的自动化 SLA 验证 |