数据中心东西向流量:现代工作负载的光模块要求
分享
介绍
传统的数据中心流量模型——即客户端和服务器之间大部分通信沿南北方向流动——已经发生了根本性的转变。现代应用,特别是人工智能训练、分布式数据库、微服务架构和超融合基础设施,会在数据中心内的服务器之间产生海量的东西向流量。这种转变对光模块的选择、网络架构和容量规划都产生了深远的影响。理解东西向流量模式及其对光网络的影响,对于设计高效、可扩展的人工智能数据中心至关重要。
了解东西向和南北向交通
传统南北模式
特点:在传统的三层架构(接入层-分发层-核心层)中,流量主要在终端用户和集中式服务器之间垂直流动。典型的流量比例为:南北向(客户端-服务器)80%,东西向(服务器-服务器)20%。
网络设计:针对南北向带宽进行了优化,东西向路径带宽严重不足。核心层和分发层带宽较高,而服务器间的通信需要经过多跳,容量有限。
光模块部署:高速模块集中在核心层和分发层(40G、100G),而接入层使用较低速度(1G、10G)。
现代东西方主导地位
流量转移:现代数据中心东西向流量占比 70-90%,一些 AI 训练集群在训练操作期间东西向流量占比接近 95%。
司机:
- 分布式计算:MapReduce、Spark 和其他框架将计算任务分布在成百上千台服务器上。
- 微服务:将应用程序分解成数十个或数百个持续通信的服务。
- AI训练:梯度同步需要GPU之间进行全对全通信。
- 分布式存储:Ceph、HDFS 和其他系统将数据复制到多个节点。
- 虚拟机迁移:实时迁移将虚拟机在主机之间移动,会产生大量数据传输。
网络影响:需要无阻塞或极少过载的东西向带宽,从根本上改变了网络拓扑和光模块要求。
人工智能训练:东西方终极工作负载
分布式培训中的沟通模式
数据并行:最常见的训练策略是将数据分散到多个 GPU 上,每个 GPU 处理不同的批次:
- 前向传递:通信量极少,每个GPU独立处理。
- 反向传播:局部计算梯度
- 梯度同步:All-reduce 操作在所有 GPU 之间交换梯度——纯粹的东西向流量
- 流量:对于 1750 亿参数模型(350GB 梯度),1024 个 GPU 每次迭代必须交换 350GB 的数据。
- 频率:每秒 5-20 次迭代,产生持续的东西向交通突发流量
模型并行化:大型模型分布在多个GPU上会产生不同的模式:
- 管道并行性:顺序阶段向前传递激活值,向后传递梯度——线性的东西向交通模式
- 张量并行:跨 GPU 分割的层需要在每个层内频繁执行 all-reduce 操作——极高的东西向带宽。
- 专家混合模型:路由机制创建动态的东西向流量,流向不同的专家GPU。
带宽要求:为实现最佳 GPU 利用率,网络带宽必须等于或高于 GPU 的计算速度。NVIDIA H100 拥有 1000 TFLOPS 的计算能力,每块 GPU 大约需要 400-800 Gbps 的网络带宽,以避免大规模训练中出现通信瓶颈。
光模块的影响
服务器连接性:
- 单GPU服务器:200G或400G网卡即可满足需求。
- 8GPU服务器:需要2×400G或8×400G(轨道优化型)硬盘
- 外形尺寸:根据散热和密度要求,可选用 QSFP-DD 或 OSFP。
- 延迟:模块延迟小于 500 纳秒,这对维持 GPU 利用率至关重要。
交换机基础设施:
- 叶交换机:400G 或 800G 服务器端口
- 脊交换机:800G 或 1.6T 用于聚合。
- AI训练的超额分配比例:1:1(非阻塞)至最高2:1
- 总模块数:10,000 个 GPU 集群需要 10,000 到 20,000 个光模块,具体取决于架构。
微服务和容器网络
服务网格通信
架构:现代应用程序由数百个微服务组成,每个微服务都在容器中运行,并通过服务网格(Istio、Linkerd、Consul)进行通信。
交通特征:
- 高连接数:服务之间存在数千个并发 TCP 连接
- 小消息:许多请求都很小(几千字节),但频率很高。
- 不可预测的模式:流量会根据用户请求和服务依赖关系动态变化。
- 东西向流量占主导地位:数据中心内 80-90% 的流量是服务间的流量
网络要求:
- 低延迟:为保持应用程序响应速度,服务间延迟必须小于 1 毫秒。
- 高数据包速率:需要每秒数百万个数据包 (Mpps) 的容量。
- 带宽:总带宽比单流带宽更重要
- 服务质量:区分对延迟敏感的服务和批量工作负载
光模块选择:
- 服务器网卡:25G 或 100G 足以满足大多数微服务工作负载的需求。
- 聚合:400G 用于叶脊链路,以处理聚合流量
- 延迟优化:对延迟要求高的服务使用低延迟模块(LPO、SR8)。
- 成本优化:微服务架构不需要每台服务器 800G 的内存,因此可以采用经济高效的 100G 部署方案。
Kubernetes 网络
Pod 间通信: Kubernetes 网络创建了用于 Pod 通信的覆盖网络(Calico、Flannel、Cilium):
- 封装开销:VXLAN 或其他隧道技术会为每个数据包增加 50-100 字节,从而增加带宽需求。
- 网络策略:软件处理的防火墙规则可能会增加延迟。
- 服务发现:DNS 和服务网格会增加通信开销
优化策略:
- SR-IOV :直接硬件访问绕过软件网络协议栈,从而降低延迟和 CPU 开销
- DPDK :面向高数据包速率的用户空间网络
- eBPF :内核中用于网络策略的高效数据包处理
- 光模块的影响:采用 SR-IOV 的高性能网卡需要 100G 或 200G 光模块才能充分发挥硬件性能。
分布式存储系统
对象存储(Ceph、MinIO)
复制流量:对象存储系统为了持久化,会在多个节点之间复制数据:
- 写入放大:3倍复制意味着每次写入都会产生3倍的网络流量。
- 重新平衡:添加或移除节点会引发大规模数据迁移。
- 纠删码:比复制更高效,但仍然会产生大量的东西向流量。
带宽要求:
- 存储节点:每个节点 25G 或 100G,具体取决于磁盘数量和性能等级。
- 聚合:400G 用于存储集群聚合交换机
- 隔离:专用存储网络架构将存储流量与计算流量隔离。
部署示例:一个包含 1000 个节点的 Ceph 集群,每个节点拥有 100TB 的存储空间:
- 每个节点:2×25G(总共50G)以实现冗余
- 叶交换机:48×25G 服务器端口,4×400G 上行链路
- 主干交换机:64×400G 端口
- 光模块总数:2000×25G + 256×400G
分布式文件系统(HDFS、GlusterFS)
数据局部性:分布式文件系统试图将计算放在数据附近,但仍然会产生东西向流量:
- 块复制:HDFS 通常使用 3 倍复制。
- MapReduce Shuffle :在 Map 和 Reduce 任务之间传输的中间数据
- 数据偏斜:数据分布不均会造成热点区域。
网络设计:
- 机架感知:将副本放置在不同的机架中,以避免机架故障。
- 带宽配置:确保足够的机架间带宽以进行复制和混洗。
- 光模块:100G 或 200G 服务器连接,400G 机架间链路
东西向流量的网络拓扑优化
脊柱-叶片(Clos)结构
设计原则:
- 两层架构:叶交换机连接服务器,脊交换机提供互连。
- 全网格:每一片叶子都与每一根脊骨相连
- 等价路径:任意两台服务器之间有多条路径,用于负载均衡。
- 可扩展性:增加脊交换机以提高带宽,增加叶交换机以提高服务器数量
光模块部署:
- 叶节点到服务器:400G 或 800G,具体取决于服务器需求
- 叶脊传输:800G 或 1.6T,以实现最大二分带宽
- 超额分配:AI 为 1:1(非阻塞),一般工作负载可接受 2:1 或 3:1。
示例:1024 服务器 AI 集群
- 服务器:1024 × 2 × 400G 网卡 = 2,048 × 400G 模块
- 叶交换机:32 台交换机 × 64 个 400G 服务器端口 + 16 个 800G 上行链路端口 = 2,048 个 400G 端口 + 512 个 800G 端口
- 主干交换机:16 台交换机 × 64 个 800G 端口 = 1024 个 800G 端口
- 总计:4096×400G + 1536×800G 光模块
- 二分带宽:409.6 Tbps(无阻塞)
胖树拓扑
特点:具有多层结构的Clos网络的泛化:
- 三层架构:接入层、汇聚层、核心层
- 超额订阅:聚合层通常为 4:1 或 8:1
- 成本优化:与非阻塞式 Clos 相比,减少了光模块数量
适用性:适用于混合工作负载,其中并非所有流量都是东西向的。AI 训练集群所需的超额订阅比例较低(最高 2:1)。
蜻蜓和蜻蜓+
设计:采用分层拓扑结构,交换机分组,针对高基数交换机进行了优化:
- 组内:每个组内所有成员之间的联系
- 组间:组间联系稀疏
- 路由:自适应路由以平衡跨路径的负载
优势:
- 可扩展性:可扩展至 10 万台以上服务器,且交换机层级更少
- 网络直径:较低的网络直径(2-3跳)可降低延迟。
- 成本:大规模生产时,光模块数量少于完整的Clos系统。
挑战:
- 复杂性:需要复杂的路由算法
- 热点:群体间联系可能成为瓶颈
- 采用情况:在商业数据中心中不如 Clos 常见
交通工程和负载均衡
ECMP(等价多路径)
机制:使用基于哈希的选择方法,将流量分配到多条等价路径上:
- 哈希函数:通常为 5 元组(源 IP 地址、目标 IP 地址、源端口、目标端口、协议)
- 按流传输:同一流中的所有数据包都走相同的路径,以避免数据包顺序错乱。
- 负载分布:理想情况下是均匀的,但哈希冲突会导致负载不平衡。
局限性:
- 人流:大量人流会使单个路径饱和。
- 哈希极化:多个交换机使用相同的哈希值会导致持续的不平衡。
- 适应性:无法快速应对拥塞或链路故障
光模块的影响: ECMP 的有效性取决于是否有足够的并行路径。更多的光模块(端口数量更多的交换机)可以实现更好的负载分配。
自适应路由
拥塞感知路由:根据实时拥塞情况动态选择路径:
- 机制:监控队列深度、丢包率或显式拥塞信号
- 重新路由:将流量从拥堵的路径转移到利用率低的路径。
- 粒度:按流或按数据包重新路由
技术:
- CONGA :面向数据中心的拥塞感知负载均衡
- HULA :利用网络内遥测技术实现逐跳负载均衡
- Letflow :基于流的自适应路由
东西向流量的优势:与静态 ECMP 相比,自适应路由可将光模块容量的利用率提高 20-40%,从而在不增加额外硬件的情况下有效提高二分带宽。
监测与可视性
交通遥测
流量监测:
- sFlow/NetFlow :对流量进行采样以了解其模式
- 粒度:高速链路采用千分之一或万分之一的采样率
- 分析:识别热门发言者、流量矩阵、应用细分
光模块遥测:
- DDM(数字诊断监测) :温度、光功率、电压、电流
- 错误计数器:FEC 校正错误、不可校正错误、符号错误
- 利用率:每个模块和每条通道的带宽利用率
相关性分析:将流量模式与光模块性能进行关联,以确定:
- 链路过度使用,需要进行容量升级
- 链路利用率低表明路由效率低下
- 光模块性能下降导致数据包丢失或重传
能力规划
交通增长模型:
- 历史分析:分析过去 6-12 个月的流量增长情况
- 工作负载预测:预测未来人工智能训练、存储和应用程序流量
- 预留空间:东西向链路应保持 30-50% 的预留空间,以应对突发事件和增长。
光模块采购:
- 交货周期:大批量光模块订单需 8-16 周
- 库存:保持 10-15% 的备用库存,以便快速部署
- 分阶段部署:根据工作负载增长情况分阶段部署容量
成本优化策略
工作负载分段
分层网络设计:并非所有工作负载都需要相同的东西向带宽:
- 一级(AI训练) :每台服务器800G,1:1超额订阅,优质光模块
- 第二层(推理、数据库) :每台服务器 400G 内存,超额分配比例为 2:1,标准模块
- 三级(Web 服务器、批处理) :每台服务器 100G 内存,4:1 超额订阅,成本优化模块
成本影响:对于拥有 10,000 台服务器的数据中心:
- 统一规格 800G:20,000 个 800G 模块 = 2400 万美元
- 分级(一级 2000,二级 5000,三级 3000):4000×800G + 10000×400G + 6000×100G = 1160 万美元(节省 52%)
逐步扩容
即时部署:按需部署光模块,而不是一次性全部部署:
- 第一阶段:启动时部署计划产能的70%
- 第二阶段:当利用率超过 60% 时,增加 20%。
- 第三阶段:当利用率超过 75% 时,增加最后 10%。
好处:
- 分摊资本成本
- 利用价格下降的机会(新技术每年下降 10-20%)
- 使产能与实际需求相匹配
风险:
- 供应链延误会阻碍及时扩张。
- 市场趋紧,价格上涨。
- 多阶段部署的运行复杂性
东西方网络发展的未来趋势
光路交换
概念:动态重新配置光路以实现可预测的流量模式:
- AI训练:所有归约操作都遵循可预测的模式,可以在光路上进行调度。
- 批量数据传输:存储和计算之间的大型数据集移动
- 优势:近乎零交换延迟,无数据包处理开销
技术:
- MEMS开关:机械可重构,开关时间1-10毫秒
- 硅光子开关:电子可重构,开关时间10-100ns
- 混合网络:将用于控制平面的分组交换与用于数据平面的电路交换相结合。
网络内计算
网络聚合:在交换机内部执行梯度聚合,而不是在端点执行梯度聚合:
- 机制:可编程开关(P4)或专用ASIC执行求和/平均运算。
- 效益:对于所有减少运营,东西向交通量减少 50-90%。
- 例如:SwitchML 处理小消息时,all-reduce 的速度提高了 5-10 倍。
光模块的影响:网络内计算降低了带宽需求,对于相同的工作负载,有可能使用 400G 模块代替 800G 模块,或者在光模块数量相同的情况下实现更大的集群。
结论
从南北向到东西向流量主导地位的转变,从根本上改变了数据中心网络设计和光模块需求。现代人工智能工作负载、分布式应用和超融合基础设施需要高带宽、低延迟的东西向连接,这在十年前是不可想象的。
要点总结:
- 东西向通信占主导地位:现代数据中心中 70-95% 的流量是服务器到服务器的通信。
- AI 作为驱动力:AI 训练是东西向工作负载中要求最高的,每台服务器需要 400-800G 的内存。
- 架构演进:采用过载最小的脊叶式拓扑结构至关重要
- 光模块规模:大规模部署需要数万个高速模块
- 成本优化:分层方法和分阶段部署可以在保持性能的同时降低成本。
高速光模块——400G、800G 及更高规格——是实现大规模东西向流量的关键推动因素。它们在现代数据中心架构中的重要性不容低估。随着工作负载不断向更加分布式、通信密集型模式演进,光模块在提供高带宽、低延迟的东西向连接方面的作用只会日益凸显。能够理解这些流量模式并据此设计光网络基础设施的组织,将更有能力支持当今和未来高要求的应用。