新闻中心

联系我们

了解更多详细信息,请致电

020-38815864

地址:广州市天河区燕岭路120号823
电话:020-38815864
邮箱:cs@cs003.vip

高密机柜技术升级:兼容 CPO + 液冷,高算力场景稳定运行关键


发布时间:2026-01-21


AI大模型训练、超算中心算力迭代推动单机柜功率从传统10kW跃升至60kW以上,部分高端智算场景甚至向100kW级突破。传统风冷与可插拔光模块架构,已在散热效率、功耗控制、带宽密度上触及物理极限。高密机柜的技术升级核心,正聚焦于光电共封装(CPO)与液冷技术的深度兼容,二者的协同落地不仅是突破算力瓶颈的关键,更成为高负载场景下设备长期稳定运行的核心支撑。


技术协同:CPO与液冷的互补逻辑

高算力场景的核心矛盾的是“算力密度提升与能耗、散热的失衡”,CPO与液冷技术分别从网络架构与热管理维度破局,形成精准互补。CPO技术通过将光引擎与ASIC芯片共封装,摒弃传统可插拔光模块,从源头解决信号损耗、功耗过高与带宽扩展难题;而液冷技术则承接CPO集成带来的局部热密度激增,构建高效散热体系,二者缺一不可。
从能耗维度看,传统128端口400G可插拔光模块交换机功耗可达3267瓦,而CPO方案可将功耗控制在1626瓦以内,降幅超50%。但这种高密度集成使芯片热流密度突破1-2 W/mm²,风冷系统根本无法满足散热需求,液冷的介入成为强制性条件。实测数据显示,CPO交换机搭配液冷系统后,不仅能维持芯片工作温度在85℃安全阈值以下,更能进一步降低设备整体功耗5%,在吉瓦级集群中可释放显著算力增量。

在架构适配层面,CPO的封装设计需与液冷系统深度耦合。无论是2.5D共封装的基板互联,还是3D共封装的硅中介层立体堆叠,都需要液冷系统精准覆盖核心发热区域。华为CloudEngine 16800液冷CPO交换机便采用定制化冷板设计,将液冷回路直接延伸至光引擎与芯片结合处,实现热量的点对点导出,保障51.2Tb/s单机端口速率稳定输出。


液冷方案选型:适配高密机柜的工程实践

高密机柜的液冷方案需兼顾散热效率、运维便捷性与成本可控,当前冷板式与浸没式成为主流路径,二者在CPO场景的适配性各有侧重。
冷板式液冷作为成熟度最高的方案,凭借“间接散热、可靠性强”的优势成为当前CPO机柜的首选。其通过在CPO封装模块上方贴合精密微通道冷板,利用去离子水作为冷却液,通过对流与导热带走热量,无需对电子元件做绝缘处理,运维成本与传统设备接近。Supermicro的B200液冷服务器配套冷板方案,已在大规模AI集群中验证,可支持单机柜60kW功率密度,且通过快速接头设计实现设备热插拔维护,不影响同机柜其他设备运行。
浸没式液冷则面向更高热密度场景,通过将CPO交换机主板浸没在氟化液等绝缘冷却液中,实现全域均匀散热,散热效率较冷板式提升数倍,适合100kW级机柜或相变散热需求。但该方案存在成本高、材料兼容性要求苛刻等问题,目前多应用于超算中心等尖端场景。百度智能云已规划全浸没无风扇数据中心,预计2027年落地,届时将实现CPO与浸没式液冷的全场景适配。

值得注意的是,液冷系统的回路设计直接影响CPO设备稳定性。一级侧封闭回路负责带走CPO模块热量,二级侧回路通过热交换器将热量排至室外,双回路架构可有效避免冷却液污染与温度波动,保障CPO光引擎的激光源稳定性——经实测,该设计可使激光源运行寿命延长至5000万小时以上,端口波动故障率趋近于零。


CPO集成关键:从封装到运维的全链条保障

CPO与高密机柜的兼容,并非简单的技术叠加,而是从封装设计、设备适配到运维体系的全链条优化。在封装环节,激光源的分离式设计成为平衡性能与维护性的关键——将激光源前置为可插拔模块,既规避了与ASIC芯片的热干扰,又解决了传统CPO维护难度大的痛点,这一设计已通过超大规模用户400万小时无故障运行验证。
设备适配层面,CPO交换机需与液冷机柜的供电、布线体系协同设计。英伟达Quantum-X平台的Q3450-LD交换机,搭载144个800Gb/s InfiniBand端口,通过板载硅光器件与液冷冷板的一体化设计,支持两级胖树无阻塞拓扑,可直接适配高密机柜的高密度布线需求,无需额外占用风道空间,使机柜空间利用率提升3倍。

运维体系的升级同样不可或缺。Micas与Supermicro联合构建的L11节点级与L12集群级双重测试标准,为CPO+液冷方案落地提供了保障:L11级通过30余项自动化检测验证组件兼容性,L12级覆盖56种以上AI工作负载测试,确保系统在ResNet训练、NCCL通信等实际场景中稳定运行。现场部署阶段,通过全流程驻场支持,可将设备运输与安装故障率从传统的5-8%降至接近零,大幅缩短集群上线周期。


落地价值:从成本优化到算力释放

CPO与液冷的兼容升级,最终通过技术协同实现成本与性能的双重优化。在资本支出(CAPEX)方面,一个27000个GPU的大规模集群,采用CPO交换机与液冷方案后,可节省物料成本3710万美元;运营支出(OPEX)层面,仅电费一项,3年累计节省可达250万美元。对于阿里云智算中心这类场景,部署该方案后PUE从1.6降至1.12,年节省电费6800万元,投资回收期仅1.8年。

在算力释放上,液冷带来的散热突破使CPO的性能优势充分发挥。中国移动长三角数据中心采用中兴液冷CPO交换机后,单机柜功率从10kW提升至60kW,同等空间算力密度提升6倍,每年减少碳排放1.2万吨;腾讯天津数据中心则通过该方案将PUE降至1.08,年节电1200万度,实现绿色算力与运营效率的双赢。


行业趋势:技术融合与标准统一

随着6000W级芯片的逐步落地,CPO与液冷的融合将向更深层次演进。材料层面,石墨烯导热板的应用可使液冷效率再提升20%;智能控制层面,AI流量预测系统能实现液冷流量的动态调节,进一步降低能耗。标准层面,国内《液冷数据中心技术要求》已实施,CPO相关标准将于2025年底完成报批,OCP组织也发布了液冷接口规范1.1版,行业规范化将加速技术规模化落地。
未来,高密机柜的技术竞争将聚焦于CPO与液冷的协同优化能力,从芯片封装、液冷回路设计到全生命周期运维,形成一体化解决方案。对于高算力场景而言,这种技术升级不仅是突破物理极限的必然选择,更将成为企业构建算力竞争壁垒的核心支撑。

返回上一页
  • 返回顶部
  • 020-38815864
  • 微信咨询
    关注我们