绿色数据中心:面向可持续人工智能基础设施的节能光模块
分享
介绍
随着人工智能数据中心规模扩大,耗电量达到兆瓦甚至数百兆瓦,可持续性已成为一个至关重要的问题。网络基础设施,尤其是光模块,占据了数据中心能源消耗的很大一部分——通常占IT总耗电量的15%到25%。本文探讨了光模块对环境的影响,研究了线性可插拔光模块(LPO)和共封装光模块(CPO)等节能技术,分析了从制造到运行的整个碳足迹,并提出了在不影响性能的前提下构建可持续人工智能基础设施的策略。
数据中心对环境的影响
全球数据中心能耗
当前状态:
- 全球数据中心:每年消耗约 200-250 太瓦时(占全球电力消耗的 1-1.3%)
- 人工智能训练:预计每年耗电量为 10-20 太瓦时,并且正在快速增长。
- 预计增长:如果目前的趋势持续下去,到2030年可能达到500-800太瓦时(占全球电力的2-3%)。
- 碳排放量:每年约1亿至1.3亿吨二氧化碳当量
网络基础设施贡献:
- 光模块:占数据中心总功耗的 3-5%
- 开关:占总功率的 10-15%
- 综合网络:占总 IT 功率负载的 15-25%。
- 例如:100兆瓦人工智能数据中心 → 15-25兆瓦网络基础设施
光模块功耗分析
按速度划分的功率分解:
- 100G QSFP28 :每个模块 3-5W
- 400G QSFP-DD :每个模块 12-15W
- 800G OSFP(基于DSP) :每个模块15-20W
- 800G LPO :每个模块 8-12W
- 未来 1.6T :25-35W(DSP)或 15-20W(LPO/CPO)
大规模部署影响:以一个拥有 10,000 个 GPU 的 AI 训练集群为例:
- 光模块:10,000 个模块 × 18W = 180 kW
- 开关数量:500 个开关 × 3 千瓦 = 1500 千瓦
- 总电网功率:1680千瓦
- 制冷量(PUE 1.4) :1680千瓦 × 0.4 = 672千瓦
- 总功率(含制冷) :2,352 千瓦 (2.35 兆瓦)
年度能源消耗量:
- 2,352 千瓦 × 8,760 小时 = 每年 20.6 吉瓦时
- 按每千瓦时 0.10 美元计算:每年电力成本为 206 万美元。
- 按每千瓦时0.5公斤二氧化碳排放量(电网平均水平)计算:每年排放10300吨二氧化碳
节能型光模块技术
线性可插拔光学器件(LPO)
技术概述: LPO 通过使用线性(模拟)驱动器和接收器来消除耗电的 DSP 芯片,依靠主机 ASIC 的 SerDes 进行信号处理。
节能:
- 800G DSP芯片:15-20W
- 800克 LPO :8-12瓦
- 节能:节省 40-50% 的能源
- 机制:消除5-8W DSP芯片功耗
性能特点:
- 延迟:50-100纳秒(相比之下,基于DSP的延迟为200-500纳秒)
- 有效范围:根据信号质量,限制在 500 米至 2 公里之间。
- 信号质量:需要优质的光纤网络和低损耗连接。
- 主机要求:具备强大均衡能力的先进SerDes处理器
环境影响:以10,000个模块的部署为例:
- 节能:10,000 × 8W = 80 千瓦
- 年度节能:80千瓦 × 8760小时 = 700兆瓦时
- 成本节省:700兆瓦时 × 0.10美元/千瓦时 = 每年70,000美元
- 二氧化碳减排量:700兆瓦时 × 0.5千克/千瓦时 = 每年减少350吨二氧化碳排放
- PUE 为 1.4 时:每年总共可节省 980 兆瓦时、98,000 美元,减少 490 吨二氧化碳排放。
部署注意事项:
- 适用于数据中心内部连接(<500米)
- 需要高质量的光纤基础设施
- 不适用于远距离或户外应用
- 与基于DSP的模块相比,成本溢价300-500美元可以抵消节能效果。
共封装光学器件 (CPO)
技术概述: CPO 将光引擎直接与交换机 ASIC 集成,消除了电 SerDes,降低了功耗。
功率效率:
- 传统 800G 可插拔模块:每个模块 15-20W
- CPO 800G 等效:每个光引擎 5-10W
- 节能:节省 50-70% 的能源
- 机制:无需使用SerDes(3-5W)电路,缩短电路路径,优化散热设计
系统级效益:
- 交换机ASIC功耗:由于取消了SerDes,功耗降低10-20%。
- 冷却:更高效的热管理
- 系统总功耗:比可插拔模块降低 40-60%
环境影响:对于 64 端口 800G 交换机:
- 可插拔模块:64 × 18W = 1,152W
- CPO :64 × 8W = 512W
- 节能:每个开关节省 640 瓦
- 1000台交换机:每年节省640千瓦电力,5.6吉瓦时能源,节省成本56万美元,减少二氧化碳排放2800吨
时间线和收养:
- 2025-2026年:超大规模数据中心推出首批商业化CPO产品
- 2027-2028年:人工智能培训集群更广泛地采用
- 2029-2030年:CPO成为高速应用的主流技术
- 挑战:前期成本较高、可维护性降低、需要标准化
硅光子学效率提升
当前世代(2024 年):
- 硅光子调制器:驱动电压 2-4V,电容 50-100 fF
- 每个调制器的功率:100 Gbaud 时为 20-40 mW
- 总调制功率:8通道800G模块为160-320 mW
下一代(2025-2027):
- 薄膜铌酸锂:驱动电压<1V,电容10-20fF
- 功率降低:每个调制器降低 5-10 毫瓦(降低 75%)
- 其他优势:更高的带宽(>100 GHz),更好的线性度
- 集成:与硅光子学的异质集成
高级处理节点:
- DSP芯片:从7nm到5nm再到3nm CMOS工艺的演进
- 功率降低:每代降低 30-40%。
- 例如:7nm DSP,功耗 8W → 5nm,功耗 5.6W → 3nm,功耗 3.9W
- 时间表:3nm DSP量产时间为2025-2026年
生命周期碳足迹分析
制造业排放
零部件制造:
- 硅光子芯片:每片芯片产生 5-10 公斤二氧化碳当量(半导体制造是高能耗过程)
- DSP芯片:每芯片8-15公斤二氧化碳当量(先进节点需要更多处理步骤)
- 激光器和光学器件:每个模块 3-5 公斤二氧化碳当量
- PCB及组装:每个模块2-4公斤二氧化碳当量
- 每800克模块的总制造排放量:18-34公斤二氧化碳当量
运输:
- 从制造(亚洲)到部署(美国/欧洲):每个模块排放 1-2 公斤二氧化碳当量
- 包装和物流:每个模块 0.5-1 公斤二氧化碳当量
总隐含碳排放量:每个 800G 光模块 20-37 kg CO2e
运行排放
生命周期内的能源消耗:
- 模块功率:18W(基于DSP的800G)
- 运行小时数:43,800 小时(5 年 × 每年 8,760 小时)
- 总能量:18瓦 × 43,800小时 = 788千瓦时
- PUE 为 1.4 时:788 千瓦时 × 1.4 = 1,103 千瓦时
- 二氧化碳排放量:1103 千瓦时 × 0.5 千克二氧化碳/千瓦时 = 552 千克二氧化碳当量
比较:
- 生产:20-37 公斤二氧化碳当量(一次性)
- 五年运营:552 公斤二氧化碳当量
- 比例:运营排放量是生产排放量的15-28倍
- 启示:运营过程中的能源效率远比生产占地面积重要得多。
临终关怀考量
目前做法:
- 大多数光模块最终都会被丢弃到电子垃圾中。
- 组件或材料的回收利用率极低
- 未回收的贵重材料(黄金、稀土)。
- 处置对环境的影响
循环经济方法:
- 翻新:进行测试和重新认证,面向二手市场销售(售价为原价的 30-50%)
- 材料回收:提取贵金属、稀土、硅
- 组件再利用:回收可用的组件用于维修或新模块。
- 妥善处置:经认证的电子垃圾回收,以防止环境污染
可再生能源和无碳运营
数据中心选址策略
网格碳排放强度变化:
- 冰岛:0.01 千克二氧化碳/千瓦时(100% 可再生能源:水力发电 + 地热能)
- 挪威:0.02 千克二氧化碳/千瓦时(98% 水力发电)
- 加拿大魁北克:0.03 千克二氧化碳/千瓦时(95% 水力发电)
- 加利福尼亚州:0.25 千克二氧化碳/千瓦时(60% 可再生能源)
- 德克萨斯州:0.45 千克二氧化碳/千瓦时(30% 可再生能源)
- 中国(平均) :0.65 千克二氧化碳/千瓦时(煤炭为主)
- 德国:0.35千克二氧化碳/千瓦时(增加可再生能源)
对光模块碳足迹的影响:以 10,000 个模块的部署(180 kW)为例:
- 冰岛:180千瓦 × 8760小时 × 1.4 PUE × 0.01千克/千瓦时 = 22吨二氧化碳/年
- 德克萨斯州:180千瓦 × 8760小时 × 1.4 PUE × 0.45千克/千瓦时 = 990吨二氧化碳/年
- 差异:德克萨斯州的排放量是冰岛的45倍
选址决策因素:
- 可再生能源的可用性和成本
- 降低制冷温度(降低PUE)
- 用户延迟(在高碳排放地区可能需要边缘部署)
- 监管环境和激励措施
购电协议(PPA)
可再生能源购电协议:
- 签订长期(10-20年)可再生能源采购合同
- 可以是现场的(例如数据中心的太阳能电池板),也可以是异地的(例如风力发电场)。
- 提供价格稳定和减少碳排放
- 大型超大规模数据中心运营商已承诺实现100%可再生能源。
例如:微软承诺到 2030 年实现碳负排放,其中包括:
- 所有数据中心均使用100%可再生能源
- 历史排放量的碳去除
- 供应链碳减排要求
碳抵消和碳信用
抵消残余排放:
- 购买碳信用额度,以抵消无法消除的排放。
- 典型成本:每吨二氧化碳 10-50 美元
- 在德克萨斯州部署 10,000 个模块:990 吨 × 30 美元 = 每年 29,700 美元
- 质量参差不齐:优先考虑已验证的、额外的、永久性的补偿
制冷效率和PUE优化
电源使用效率 (PUE)
定义: PUE = 总设施功率 / IT 设备功率
- 理想状态:PUE = 1.0(所有电力都流向IT设备)
- 行业平均水平:PUE = 1.6-1.8
- 同类最佳:PUE = 1.1-1.3
- Google 平均值:PUE = 1.10(过去 12 个月的平均值)
对光模块能耗的影响:
- PUE 1.8 :180 kW IT 功率 → 324 kW 总设施功率(180 kW 冷却/运行负荷)
- PUE 1.2 :180 kW IT 功率 → 216 kW 总设施功率(36 kW 冷却/运行负荷)
- 节省:每年减少 108 千瓦功率、946 兆瓦时电量,节省成本 94,600 美元,减少二氧化碳排放 473 吨
先进冷却技术
自然冷却:
- 环境温度低时,请使用室外空气。
- 在温带气候下,节能模式可提供 50-90% 的免费制冷。
- 降低制冷能耗40-70%
液冷:
- 芯片级直冷:GPU 和 CPU 的液冷散热
- 后门热交换器:机架上的液冷门
- 浸没式冷却:服务器浸没在介电液体中
- PUE 改善:可达到 PUE 1.05-1.15
- 光模块优势:较低的环境温度可提高模块的可靠性和效率。
人工智能优化冷却:
- 机器学习算法优化冷却系统运行
- 预测热负荷并主动调节制冷
- 谷歌旗下DeepMind利用人工智能技术将制冷能耗降低了40%。
可持续设计实践
合理调整网络带宽
避免过度配置:
- 部署与实际工作负载需求相匹配的光模块
- 并非所有服务器都需要 800G 内存——在适当的情况下,可以使用 200G 或 400G 内存。
- 分层网络设计:800G 用于 AI 训练,400G 用于推理,100G 用于 Web 服务器
例如:拥有 10,000 台服务器的数据中心:
- 统一规格800G :20,000 × 800G 模块 × 18W = 360 kW
- 分层式(30% 800G,50% 400G,20% 100G) :6,000×18W + 10,000×14W + 4,000×4W = 264 kW
- 节省:每年96千瓦、841兆瓦时、84100美元、420吨二氧化碳
模块化和可扩展架构
增量部署:
- 根据需要部署产能,而不是预先部署全部产能。
- 减少闲置设备耗电量
- 允许在更高效的技术出现时采用这些技术。
例如:与其立即部署 10,000 个模块:
- 第一阶段:部署 7,000 个模块(占计划产能的 70%)
- 第二阶段:当利用率超过70%时,增加2000个模块
- 第三阶段:当利用率超过 85% 时,增加最后 1000 个模块
- 好处:避免 3000 个模块在未充分利用的情况下(前 12-18 个月)消耗电力
- 节省:3,000 × 18瓦 × 8,760小时 × 1.5年 = 710兆瓦时,71,000美元,355吨二氧化碳
延长产品生命周期
最大限度延长模块寿命:
- 适当的保养和清洁可将使用寿命延长5至7-10年。
- 固件更新可以添加新功能或提高效率
- 降速至较低速度(800G → 400G)以延长在要求不高的应用场景中的使用时间。
环境效益:
- 延误替换模块的生产(每个模块排放20-37公斤二氧化碳当量)
- 减少电子垃圾
- 在较长时间内摊销隐含碳排放
行业倡议和标准
开放计算项目(OCP)
使命:开发开源、节能的数据中心技术
光模块计划:
- OSFP MSA :标准化外形尺寸,注重热效率
- LPO规范:定义低功耗光模块的标准
- CPO 开发:共封装光学元件标准的合作研究
- 可持续性指标:定义光模块的能效基准
绿色电网和能源效率标准
绿色网格:
- 专注于数据中心能源效率的行业联盟
- 开发了 PUE 指标(现为 ISO/IEC 30134-2 标准)
- 碳利用效率 (CUE) 指标:总二氧化碳排放量 / IT 设备能耗
- 冷却水消耗的水利用效率 (WUE)
数据中心能源之星:
- 美国环保署(EPA)的节能数据中心认证项目
- 包括网络设备效率要求
- 鼓励采用节能型光模块
企业可持续发展承诺
主要云服务提供商:
- 谷歌:到2030年实现无碳能源,目前已实现碳中和
- 微软:到2030年实现碳负排放,到2050年消除历史排放量。
- 亚马逊:到2040年实现净零碳排放,到2025年实现100%可再生能源。
- Meta :到2030年实现整个价值链的净零排放
供应链需求:
- 要求光模块供应商报告碳足迹
- 优先选择拥有可再生能源制造能力的供应商
- 为供应商设定碳减排目标
可持续发展的经济意义
碳定价下的总拥有成本 (TCO)
场景:部署 10,000 个模块,5 年总拥有成本
方案A:标准800G DSP模块
- 采购:10,000 × 1,200 美元 = 1200 万美元
- 电力(5年):180千瓦 × 8,760小时 × 5 × 0.10美元/千瓦时 × 1.4 PUE = 110万美元
- 碳排放成本(50美元/吨):2760吨 × 50美元 = 138000美元
- 总计:1324万美元
方案B:800G LPO模块
- 购买:10,000 × 900 美元 = 900 万美元
- 发电量(5年):100千瓦 × 8,760小时 × 5 × 0.10美元/千瓦时 × 1.4 PUE = 613,000美元
- 碳排放成本(50美元/吨):1533吨 × 50美元 = 77000美元
- 总计:969万美元
五年内可节省355 万美元(总拥有成本降低 27%)
碳税和监管趋势
新兴碳定价机制:
- 欧盟碳排放交易体系:每吨二氧化碳80-100欧元(且价格上涨)
- 加州:每吨二氧化碳 30-40 美元
- 拟议联邦碳税:每吨二氧化碳 40-60 美元
- 趋势:碳定价机制在全球范围内扩展,价格上涨
对数据中心经济的影响:
- 按每吨二氧化碳 100 美元计算,部署 10,000 个模块:年度碳成本为 276,000 美元(DSP),而年度碳成本为 153,000 美元(LPO)。
- 随着碳价上涨,能源效率的重要性日益凸显。
- 尽早采用高效技术可带来竞争优势。
未来展望:净零排放数据中心
迈向净零排放的技术路线图
2025-2027年:
- 广泛采用LPO技术可降低光模块功耗40-50%。
- 采用薄膜铌酸锂调制器的先进硅光子学
- 通过AI优化散热,PUE值提升至1.1-1.2。
- 增加可再生能源采购
2028-2030年:
- CPO的主流应用可降低50-70%的能耗。
- 1.6T 和 3.2T 模块具有更高的能源效率(pJ/bit)
- 为主要云服务提供商提供 100% 可再生能源
- 采用先进的液冷技术,PUE 值接近 1.05
2030 年及以后:
- 新型光子材料和器件(二维材料、等离子体激元)
- 用于人工智能工作负载的光计算(消除电光转换)
- 负碳数据中心(碳捕获、可再生能源盈余)
光模块的循环经济
可持续设计:
- 模块化设计允许组件更换
- 跨代兼容性的标准化接口
- 减少危险材料的使用
- 便于拆卸和回收的设计
翻新行业:
- 翻新光模块的新兴市场
- 可延长模块寿命 3-5 年
- 减少生产排放和电子垃圾
- 为非关键应用提供经济高效的解决方案
结论
对于人工智能数据中心而言,可持续性已不再是可选项,而是经济、监管和伦理方面的必然要求。光模块虽然仅占数据中心总功耗的一小部分,但通过LPO和CPO等技术,却能显著提升能源效率,降低40%至70%的能耗。
要点总结:
- 运行排放占主导地位:光模块碳足迹的95%来自运行阶段,而非制造阶段。
- 提高能源效率带来收益:LPO 模块每年每 1000 个模块可节省 10000 美元以上的能源成本。
- 选址至关重要:在可再生能源地区部署项目可减少 10-50 倍的碳足迹。
- 合理配置:使光模块带宽与实际需求相匹配,避免过度配置。
- 生命周期思维:在可持续发展决策中考虑制造、运营和报废阶段。
- 未雨绸缪:现在就投资节能技术,为碳定价做好准备。
节能光模块在构建可持续人工智能基础设施中的重要性不容低估。随着人工智能的不断发展和碳排放法规的日益严格,那些在光网络决策中优先考虑可持续性的企业将通过降低运营成本、确保合规性以及提升企业声誉来获得竞争优势。实现净零排放人工智能基础设施的关键在于节能光模块——它们不仅是网络组件,更是可持续人工智能创新不可或缺的推动因素。