ISO/IEC TR 29181-6:未来网络 — 第6部分:分布式计算

ISO/IEC 未来网络框架技术报告(29181 系列)

未来网络的分布式计算模型

ISO/IEC TR 29181-6 探讨了未来网络架构如何原生支持超越传统客户端-服务器和云模型的分布式计算范式。在当前网络中,计算被视为网络外部的事物——服务器和云数据中心通过网络连接,但网络本身不执行任何计算,也不感知计算语义。未来网络从根本上颠覆了这一模型,将网内计算作为每一跳均可使用的一等网络能力。TR 深入涵盖了三种主要计算模型:边缘/雾计算(将计算推向网络边缘——接入节点、基站、CPE——以最小化延迟);网内计算(路由器、交换机和中间盒在数据流经过时执行轻量级应用功能);以及命名函数网络(NFN),这是 ICN 的扩展,其中函数(而不仅仅是数据)成为可被密码学标识、发现、调用和跨网络组合的一等命名对象。报告还涵盖联邦学习作为跨网络端点进行隐私保护机器学习的特殊分布式计算范式。

命名函数网络(NFN)扩展了信息中心网络:不仅可以按名称获取数据,还可以对命名数据调用命名函数——网络根据数据位置、计算负载和网络条件自主决定在何处执行该函数以获得最佳性能。
计算模型 执行位置 粒度 典型延迟
云计算 集中式数据中心 虚拟机/容器/无服务器函数 50-200 毫秒
边缘/雾计算 接入/汇聚/基站 轻量级容器 / WASM 5-20 毫秒
网内计算 交换机/路由器/NPU/SmartNIC 数据包级微函数 <1 毫秒
命名函数 NFN 任何具备缓存+计算的节点 命名代码对象(函数) 2-50 毫秒
联邦学习 终端设备+边缘聚合器 模型更新(权重/梯度) 10-100 毫秒

网内计算与可编程数据平面架构

TR 29181-6 的一个焦点是网内计算,由可编程数据平面支撑,使用 P4(用于数据包处理的领域特定语言)、eBPF(用于内核级可编程性的扩展伯克利数据包过滤器)以及基于 NPU/FPGA 的 SmartNIC 等技术。TR 描述了网内计算的分层架构:第 1 层——数据包级操作(头部修改、封装、基本统计)在数据平面中以线速执行;第 2 层——流级操作(聚合、过滤、负载均衡)在数据平面中带流状态执行;第 3 层——应用级函数(转码、加密、数据融合)在连接到转发元素的协处理器或 NPU 上执行。这一架构通过在其流经处而非发送到远程服务器处理数据,显著降低了数据密集型应用的延迟和带宽消耗。一个详细的案例研究考察了工业物联网:网关每秒聚合 10,000 个传感器读数,计算统计摘要(均值、中位数、标准差、最小/最大值、趋势检测),与阈值比较,并仅将异常读数(通常占总数据的 1-5%)转发到云端——将发往云端的流量减少了 95% 以上,并在异常发生后 1 毫秒内实现实时告警。

网内计算带来了重大的安全和信任挑战。如果被攻破的网络设备可以对经过的数据执行任意代码,它就可以检查、修改或窃取敏感信息。TR 要求所有网内计算节点使用基于硬件的可信执行环境(Intel SGX、AMD SEV、ARM TrustZone),实施代码认证机制(通过 TPM 2.0 进行远程认证),以及遵循最小权限执行原则,通过强制访问控制策略防止函数访问其授权范围之外的数据。

报告还解决有状态网内函数的状态管理问题——这是一个关键问题因为传统网络设备是无状态的。对于短生存期的流状态,设备本地 SRAM 搭配毫秒级超时就足够了。对于较长期的状态,TR 推荐与转发元素同地部署分布式键值存储(DKS),使用基于 DHT 的复制以实现弹性。通过专为网元限制条件(有限的 CPU、内存和严格的延迟要求)定制的轻量级共识协议来维护状态一致性。

编程模型、编排与工程考虑

TR 讨论了适用于未来网络分布式计算的编程模型。推荐的方法是数据流编程模型,其中计算被表示为通过类型化数据流连接的命名函数的向无环图(DAG)——类似于 TensorFlow 图,但针对网络级编排进行了泛化。跨异构节点(从低功耗物联网微控制器到高容量云 GPU 服务器)编排这些计算 DAG 需要所有计算资源的统一命名空间,以及一个同时优化多个目标的分布式调度器:最小化数据移动(将函数与其数据源同地放置)、平衡可用计算节点的负载、满足时间敏感函数的延迟要求以及最小化能耗。报告评估了基于容器的隔离(具有有限资源配置文件的 Docker、用于轻量级沙箱的 WebAssembly/WASM)、Unikernel 方法(MirageOS、IncludeOS,开销最小)和进程级隔离(Linux 命名空间 + cgroups)作为函数执行环境。关键工程考虑包括:使用约束规划进行函数放置优化;针对移动端点的状态迁移协议;用于容错的一致性快照和检查点;以及函数发现和版本管理以确保正确执行。

TR 中分析的一个真实智能制造部署通过将传感器融合、质量检测和控制回路计算转移到工厂车间的可编程交换机和网关上,实现了数据中心流量减少 85%。控制回路延迟从 50 毫秒降至 1 毫秒以下,实现了以前以云为中心的架构不可能实现的实时闭环过程控制。
跨多个网络域的分布式函数链必须优雅地处理部分故障——一个网络函数的故障不应导致整个处理流水线停滞或数据丢失。TR 建议在每个函数边界设置检查点,支持精确一次处理语义和回滚恢复。运营商必须为函数间调用实施断路器和超时机制,以防止级联故障。

常见问题

命名函数网络与传统无服务器/FaaS 计算之间的本质区别是什么?
NFN 在架构层面与网络集成——函数是网络命名空间中的可命名、可发现的对象,就像内容在 ICN 中一样。网络基础设施积极参与路由函数调用、缓存结果和在函数实例之间负载均衡。相比之下,无服务器计算以云为中心——网络对函数不感知,仅在客户端和云网关之间传输数据包。
网络如何发现和通告可用计算资源?
通过扩展的路由协议,将计算容量作为路由度量与传统带宽和延迟度量一起通告。TR 描述了对 OSPF(携带计算负载信息的不透明 LSA)和 BGP(计算能力社区属性)的扩展,实现计算感知路由。SDN 控制器也可以通过集中式资源清单服务收集计算资源信息。
传统云工作负载能否实际受益于网内计算?
可以,特别是 I/O 密集型和数据洗牌型工作负载。MapReduce 洗牌阶段可以通过网内数据聚合和重新分区加速。流处理系统(如 Apache Flink、Kafka Streams)可以将过滤和窗口聚合推入网络。数据库查询执行可以将投影和选择操作卸载到靠近存储节点的网元上,减少数据移动。TR 报告在实验部署中这些工作负载获得了 3-10 倍的性能提升。
管理有状态网内函数状态一致性的推荐方法是什么?
TR 推荐分层方法:临时的流状态保存在设备本地 SRAM 中,带 TTL 过期;重要状态通过基于 DHT 的轻量级复制协议在 2-3 个相邻节点间进行复制;需要强一致性保证的持久状态依赖外部键值存储(如 Redis、etcd),并在网元上进行乐观缓存。对于设备故障或维护期间的状态迁移,采用具有两阶段提交的检查点传输协议可确保无状态丢失。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注