IEC 62853:开放系统的可信性——构建可信赖动态系统的框架

在开放、演进和可组合系统中管理可靠性、可用性、可维护性和弹性

IEC 62853于2018年发布,为管理开放系统的可信性提供了一个全面的框架。开放系统的特征包括可组合性(由独立开发的组件构建)、生命周期中的演化(通过更新、技术升级或需求变更不断变化)以及互操作性(跨组织和技术边界的交互)。随着现代系统越来越多地集成来自不同来源的软件和硬件,通过更新不断演化,并在组织边界之间进行交互,针对封闭、静态和集中控制系统的传统可信性方法已不再足够。IEC 62853通过专门针对开放系统范式定义原则、过程和保证方法解决了这一差距。

该标准将可信性定义为一个用于描述项目时间相关质量特性的集合术语,包括可用性、可靠性、可恢复性、可维护性和维护支持性能。在开放系统的背景下,IEC 62853将这一传统范围扩展至包括额外的属性,如生存性(在不利条件下履行要求功能的能力)、完整性(不存在不当的系统变更)和安全性。标准强调,开放系统的可信性无法仅通过设计实现,而需要在系统的整个生命周期中进行持续管理,包括主动监控、自适应治理以及跨系统供应链的协作保证。

IEC 62853适用于任何具有开放特征的系统:可组合性(由独立开发的组件构建)、演化性(通过更新、技术升级或需求变更随时间变化)和互操作性(跨组织和技术边界的交互)。典型示例包括智能电网、自动驾驶生态系统、工业物联网平台和医疗信息系统。

开放系统的可信性概念

IEC 62853引入了几个扩展传统可信性思维的关键概念。”可信赖性”的概念不仅涵盖传统的可信性属性,还包括安全性、隐私和数据完整性——认识到在开放系统中,可信性故障往往源于安全漏洞。标准引入了”涌现行为”的概念——由组件交互产生的系统级特性,无法仅从组件属性预测。在组件独立开发和动态集成的开放系统中,涌现的可信性行为必须持续评估,而非从组件级规格书中假定。这意味着系统架构师和工程师需要建立系统级的监控和验证机制,及时发现和应对不可预测的涌现行为。

“优雅降级”的概念被形式化为一个设计原则:当开放系统无法履行其所有功能时,应以可控和可预测的方式降级,即使在非必要功能丧失时仍能维持基本服务。这对于必须在网络攻击、组件故障或环境干扰等不利条件下运行的系统尤为重要。标准还定义了”可信性保证案例”,即由证据支持的结构化论证,证明系统满足其要求的可信性属性,该方法改编自航空航天、国防和汽车行业广泛使用的安全案例概念。这些保证案例必须在系统演化时保持更新,提供随系统架构演变的活文档。保证案例的生命周期管理应与系统的配置管理流程紧密结合。

IEC 62853开放系统的可信性特性
特性 定义 开放系统考虑因素
可用性 按要求执行的能力 需考虑组件更换和版本变更
可靠性 无故障按需执行的能力 组件可靠性可能随软件更新而改变
可维护性 可被修复或修改的能力 热插拔组件、远程更新、向后兼容
生存性 承受不利条件的能力 优雅降级、多样性、跨边界冗余
完整性 不存在不当变更 数字签名、信任链、安全启动、认证
可演化性 适应变化的能力 模块化架构、明确定义的接口、版本策略
在开放系统中,一个在隔离环境中可信的组件在集成到更大的系统中时,可能因不可预见的交互、共享资源争用或时间依赖性问题而变得不可信。IEC 62853强调,系统级可信性必须通过集成测试、监控和现场数据分析持续验证——不能仅通过组件级鉴定来保证。

可信性管理与保证框架

IEC 62853建立了一个围绕系统生命周期构建的可信性管理过程:概念、开发、生产、使用、支持和退役。在每个阶段,可信性活动必须根据系统的开放性进行调整。在概念阶段,标准要求识别系统的开放特征及其相关的可信性风险。在开发阶段,强调模块化设计原则和接口标准化,以实现组件的独立验证。生产阶段侧重于供应链可信性管理,包括供应商资格认证及其可信性过程的评估。支持阶段强调基于现场数据的持续改进和运行反馈循环。

框架的核心要素是可信性保证案例,它提供结构化的、基于证据的论证,证明系统达到其要求的可信性水平。保证案例结构遵循主张-论证-证据模式:高层级的可信性主张被分解为子主张,由推理支持,每个论证都有测试结果、现场数据、设计分析或审计结果等证据支持。对于开放系统,保证案例必须明确解决系统演化和组件异构性引入的不确定性。标准推荐使用贝叶斯方法根据积累的现场数据更新可信性估计,并倡导持续保证而非时间点认证,因为认证快照在快速演化的系统中很快就会过时。这一理念与DevOps和持续交付实践中的”持续合规”概念高度一致。

可信性度量及其在开放系统中的应用
度量 公式 开放系统适应
瞬时可用性 A(t) = P(系统在t时刻正常运行) 跟踪为系统版本和配置的函数
稳态可用性 A = MTBF / (MTBF + MTTR) 趋势监控;滚动窗口上的移动平均
故障率 λ(t) = 瞬时危险率 使用现场数据的贝叶斯更新;区分软件与硬件故障
平均故障间隔时间 MTBF = 1 / λ(常数率) 按组件类型、版本和运行条件分层
平均修复时间 MTTR = 平均纠正性维护时间 包括诊断、修复和验证阶段
一个结构良好的可信性保证案例充当系统的”可信性记忆”——捕获设计理由、测试证据、运行数据和经验教训。当系统演化时,保证案例被更新而非从头重建,提供贯穿系统生命周期的可信性推理连续性,并在修改后实现高效的重新认证。

开放系统可信性工程设计的要点

从实际工程角度来看,IEC 62853为设计可信赖的开放系统提供了几个原则。首先,具有明确定义接口契约的架构模块化是基础——组件之间的每个接口都应具有明确的行为、时序和可靠性规范,并能独立验证。这实现了”通过组合实现可信性”,即只要接口规范得到遵守,整体的可信性可从其组成部分的可信性估计。契约式设计、接口定义语言和形式化接口规范等技术支持这种方法。在实践中,严格遵循OpenAPI标准定义微服务接口,并配合消费者驱动的契约测试,可以有效地维护接口的兼容性和可靠性。

其次,优雅降级和故障隔离必须从一开始就设计到架构中。在系统边界部署隔板、断路器和看门狗,以防止故障在组件之间传播。在开放系统中,任何单个组件的故障都不应级联为系统范围的故障。这需要仔细关注资源分配策略,以确保行为异常的组件无法耗尽其他组件的共享资源。具有独立部署单元的微服务架构、具有断路器功能的服务网格以及具有资源限制的容器化应用程序是这一原则在现代软件密集型系统中的实际体现。

第三,可观测性对于管理开放系统的可信性至关重要。全面的日志记录、结构化追踪和指标收集必须内置到每个组件中,使用标准化格式支持跨组件边界的关联分析。标准建议实施集中的可观测性平台,收集和分析整个系统的可信性数据,提供实时监控仪表板和事故后分析工具。OpenTelemetry已成为在现代分布式系统中实现这一可观测性层的事实标准框架,支持跨异构组件和服务的追踪上下文传播、指标聚合和日志关联。

第四,变更管理过程必须考虑可信性影响。对开放系统的每个提议变更——无论是软件更新、硬件更换、配置更改还是接口修改——在部署前都应评估其对系统可信性的潜在影响。标准建议维护一个可信性影响登记册,跟踪所有变更及其评估风险。对于高关键性的变更,应在部署批准前进行针对可信性保证案例的回归测试。金丝雀部署、A/B测试和分阶段推出被推荐作为可信性关键更新的风险缓解策略。

问1:IEC 62853与IEC 60300(可信性管理)系列有何不同?
答:IEC 60300提供适用于任何系统的通用可信性管理原则。IEC 62853专门解决开放系统的挑战——可组合性、演化和互操作性——这需要传统可信性管理之外的额外过程和方法。IEC 62853可被视为IEC 60300在开放系统背景下的专业扩展。
问2:IEC 62853是否适用于纯软件系统?
答:是的,IEC 62853的原则适用于任何具有开放特征的系统,包括纯软件系统、纯硬件系统和混合系统。然而,该标准对于演化和可组合性最为突出的软件密集型系统尤其相关。特别地,保证案例框架能够很好地迁移到软件工程中的持续集成/持续部署环境。
问3:可信性保证案例与安全案例之间有什么关系?
答:可信性保证案例将安全案例的概念从狭义的关注安全扩展到涵盖所有可信性属性的更广泛范围。结构和方法论相似,但可信性案例处理更广泛的系统质量。在实践中,可信性保证案例可能引用或纳入安全案例、安全案例和其他学科特定的保证论证。
问4:当组件由不同组织开发时,如何保证可信性?
答:IEC 62853建议在组织之间建立可信性协议,规定可信性要求、验证方法、数据共享义务和变更通知程序。这些协议构成协作可信性管理的合同基础。此外,标准建议对关键系统特性使用独立验证和确认,并建立跨组织边界供所有利益相关者访问的共享可信性数据存储库。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注