AI训练与推理:不同的网络需求和架构策略

介绍

尽管人工智能训练和推理都利用了GPU和加速器,但它们的网络需求却截然不同。训练需要巨大的带宽来实现数千个GPU之间的梯度同步,而推理则更注重低延迟、高请求吞吐量和成本效益。理解这些不同的需求对于设计优化的基础设施至关重要。本文将深入剖析每种工作负载的网络特性,并探讨最佳的架构策略。

工作量特征:一个根本性的分界线

培训工作量

训练过程涉及基于分布式 GPU 上的训练数据批次,迭代地更新模型参数:

沟通模式:

  • 全GPU归约操作:每个GPU与其他所有GPU交换梯度。
  • 批量同步并行(BSP):训练步骤之间的同步屏障
  • 集体通信占据主导地位(占网络流量的 70-80%)

交通特征:

  • 大规模、可预测的数据传输(每次 all-reduce 操作传输数百 GB)
  • 所有GPU同时同步突发处理
  • 大象流:持续时间长、流量大的连接
  • 每次训练迭代中重复出现的确定性模式

绩效指标:

  • 带宽利用率:训练期间维持在 80-95%
  • 持续时间:数小时至数周的连续运行
  • 延迟容忍度:梯度同步可接受 100-500μs
  • 抖动敏感度:高(影响收敛性和训练稳定性)

推理工作负载

推理过程处理单个用户请求或小批量请求,以生成预测结果:

沟通模式:

  • 请求-响应:客户端发送输入,模型返回预测结果
  • 异步、独立的请求,无需GPU间协调
  • 点对点通信(负载均衡器→GPU→客户端)

交通特征:

  • 小规模、大小不一的请求(KB 到 MB 范围)
  • 由用户行为驱动的突发性、不可预测的流量
  • 鼠类流动:短暂、低流量的连接
  • 高请求率(每秒数千到数百万个请求)

绩效指标:

  • 带宽利用率:10-40%(远低于训练用率)
  • 持续时间:每次请求的毫秒数
  • 延迟至关重要:实时应用端到端延迟需低于 10 毫秒
  • 尾延迟(P99):必须严格控制,以提升用户体验。

网络需求比较

方面 训练 推理 比率
每个GPU的带宽 400-800Gbps 10-100Gbps 8-80倍
潜伏期(P50) 200-500微秒 1-5毫秒
潜伏期(P99) 1-2毫秒可接受 <10毫秒临界值
抖动容限 低(影响收敛性) 非常低(影响用户体验)
吞吐量优先级 批量数据传输 请求速率(QPS)
交通可预测性 高度可预测 高度可变
利用模式 持续80-95% 爆发性 10-40%

训练网络架构

设计原则

  • 最大化二分带宽:采用无阻塞结构以防止梯度同步瓶颈
  • 缩小传输距离:减少跳数,从而降低延迟
  • RDMA 优化:零拷贝数据传输,实现最高效率
  • 自适应路由:将流量分配到多条路径上,以避免出现热点。

推荐拓扑结构

脂肪树或双层脊叶(CLOS)

  • 完全二分带宽(1:1 超额订阅或更高)
  • 每个叶交换机都连接到每个脊交换机。
  • 任意两块GPU之间的延迟为2-3跳
  • 可扩展至 10,000 多个 GPU,并保持可预测的性能

协议栈

InfiniBand(首选)或 RoCE v2

  • InfiniBand:原生 RDMA、自适应路由、拥塞控制
  • RoCE v2:基于以太网的 RDMA,成本更低,生态系统更广泛
  • 两者都支持GPUDirect RDMA,用于GPU之间的直接数据传输。

关键技术

  • NCCL(NVIDIA 集体通信库):优化的全归约算法
  • GPUDirect RDMA:绕过 CPU 进行 GPU 到网络的数据传输
  • 优先级流控制(PFC):防止拥塞期间丢包
  • ECN(显式拥塞通知):主动式拥塞管理

带宽分配

对于配备 8 个 GPU 的 DGX H100 系统:

  • 8 个 400Gbps InfiniBand 网卡 = 总计 3.2Tbps
  • 每个GPU都拥有400Gbps的专用带宽用于节点间通信。
  • 节点内:NVLink 提供 900GB/s 的 GPU 间带宽

例如:Meta 的人工智能研究超级集群 (RSC)

  • 规模: 16,000 个 NVIDIA A100 GPU
  • 网络: NVIDIA Quantum-2 InfiniBand,每个 GPU 速度为 400Gbps
  • 拓扑结构: 5层CLOS,二分带宽为25.6Tbps
  • 性能:在 GPT 规模模型上 GPU 利用率超过 90%

推理网络架构

设计原则

  • 优化延迟:尽量减少跳转次数和排队延迟
  • 超额预订是可以接受的:书页与书脊的比例可以达到 4:1 甚至 10:1。
  • 边缘优化:将推理结果放置在靠近用户的位置(类似 CDN 的分布)
  • 弹性伸缩:根据请求负载自动调整 GPU 容量

推荐拓扑结构

双层叶脊式,超额订阅

  • 超额认购率:4:1 至 10:1(成本优化)
  • 边缘叶交换机用于低延迟访问
  • Spine提供机架间连接
  • 通过增加叶片开关实现水平扩展

协议栈

TCP/IP 与 HTTP/2 或 gRPC

  • 标准以太网(无需RDMA)
  • HTTP/2 用于通过单个连接复用多个请求
  • 用于高效二进制序列化的gRPC
  • 用于加密的TLS(会增加约1毫秒延迟,但出于安全考虑是必需的)

关键技术

  • 负载均衡:将请求分配到 GPU 池(NGINX、Envoy、AWS ALB)
  • 请求批处理:聚合多个请求以提高 GPU 利用率
  • 模型缓存:将热门模型保存在 GPU 内存中,以避免重新加载延迟
  • 连接池:重用 TCP 连接以减少握手开销

带宽分配

对于配备 8 个 A100 GPU 的推理服务器:

  • 2 个 100Gbps 以太网网卡(绑定)= 总带宽 200Gbps
  • 平均每个GPU 25Gbps(相比之下,训练时为400Gbps)
  • 在典型批处理规模下,足以应对每秒 10,000 次以上的请求。

示例:OpenAI ChatGPT推理基础设施

  • 规模:预计超过 10,000 个 GPU(A100/H100 混合)
  • 网络:标准以太网,带智能负载均衡
  • 拓扑结构:采用地理分布式边缘集群以实现低延迟
  • 性能:大多数查询的响应时间均在一秒以内

混合架构:训练 + 推理

许多组织在共享基础设施上运行这两种工作负载。关键策略:

策略一:分离集群

方法:专用训练集群(高带宽)+专用推理集群(延迟优化)

优点:

  • 针对每项工作负载实现最佳性能
  • 无资源争用
  • 简化的产能规划

缺点:

  • 更高的资本成本(重复的基础设施)
  • 整体GPU利用率降低(训练集群在作业间隙处于空闲状态)

最适合:需要持续培训和处理大量推理数据的大型组织

策略 2:时分复用集群

方法:使用相同的GPU进行训练(非高峰时段)和推理(高峰时段)。

优点:

  • GPU 利用率更高(80-90% 对比独立显卡的 50-60%)
  • 降低资本成本

缺点:

  • 需要复杂的编排
  • 模型装卸耗时(分钟)
  • 培训工作对推理服务水平协议的影响风险

最适合:流量模式可预测的中型部署

策略三:分层网络(铁路优化)

方法:采用独立的物理网络进行训练(高带宽 InfiniBand)和推理(标准以太网)。

优点:

  • 工作负载隔离可防止相互干扰。
  • 成本优化(仅在需要的地方使用昂贵面料)
  • 灵活的资源分配

缺点:

  • 布线和交换机的复杂性增加
  • 需要双网卡服务器

最适合:具有混合工作负载的超大规模部署

成本分析:训练网络与推理网络

1024 GPU 集群比较

成分 培训(400G IB) 推理(100G 以太坊)
NIC 800万美元(8 x 400G IB/GPU) 50万美元(2x 100G 以太网/GPU)
开关 480万美元(非阻塞) 120万美元(超额认购4倍)
光学 200万美元 20万美元
全网 1480万美元 190万美元
GPU成本百分比 49% 6%

由于带宽需求,训练网络的成本是推理网络的 7-8 倍。

性能优化技术

用于训练

  • 梯度压缩:将所有缩减数据量减少 10-100 倍(FP16、INT8 量化)
  • 分层全归约:节点内使用 NVLink,节点间使用 InfiniBand
  • 流水线并行:将通信与计算重叠
  • ZeRO 优化器:分区优化器状态,​​以减少内存和通信

推理

  • 请求批处理:聚合 8-32 个请求以提高 GPU 利用率
  • 模型量化: INT8/INT4 可减小模型大小和传输时间
  • KV缓存优化:在多轮对话中重用注意力缓存
  • 推测性解码:降低自回归生成的延迟

监测和可观测性

训练指标

  • 全部降低延迟(P50、P99、P99.9)
  • 每个GPU的网络带宽利用率
  • 丢包率(启用 PFC 后应为 0)
  • GPU利用率(目标:90%以上)

推理指标

  • 请求延迟(P50、P95、P99)
  • 每秒请求数 (QPS)
  • GPU内存利用率
  • 队列深度和等待时间

未来趋势

训练

  • 800G/1.6T InfiniBand:支持万亿参数模型
  • 光路交换:面向动态工作负载的可重构拓扑结构
  • 网络内计算:将所有归约任务卸载到智能网卡/分布式处理器

推理

  • 边缘推理:在 5G 基站上部署模型,延迟小于 1 毫秒
  • 无服务器推理:秒内自动从 0 个 GPU 扩展到数千个 GPU
  • 模型压缩:通过蒸馏和剪枝降低网络传输需求

结论

训练和推理代表了网络需求的两端。训练需要最大带宽和适度的延迟容忍度,而推理则优先考虑低延迟和适中的带宽需求。理解这些差异对于经济高效的基础设施设计至关重要。

要点总结:

  • 训练网络所需的GPU成本是普通训练的7-8倍,但对于高效的分布式训练至关重要。
  • 推理网络可以使用超额订阅的通用以太网来降低成本。
  • 混合架构需要仔细隔离工作负载以防止相互干扰。
  • 网络优化(压缩、批处理)可以显著提高两种工作负载的性能。

随着人工智能模型的不断扩展,网络仍将是一个关键的差异化因素——那些根据工作负载特征构建基础设施的组织将获得卓越的性能和经济效益。

返回博客