新闻中心

联系我们

了解更多详细信息,请致电

020-38815864

地址:广州市天河区燕岭路120号823
电话:020-38815864
邮箱:cs@cs003.vip

国产 DPU 第一股实测:云豹智算琢光 400G,IDC 算力利用率提 4 倍


发布时间:2026-01-30


在AI算力需求爆发式增长与“东数西算”战略深化的双重背景下,IDC作为算力枢纽,正面临着一场核心效能瓶颈的考验——算力闲置与业务卡顿并存、CPU资源被非核心任务吞噬、算力调度碎片化,这些痛点直接导致国内多数IDC的实际算力利用率长期徘徊在10%-15%,大量高端算力资源被浪费。而DPU(数据处理单元)作为与CPU、GPU并列的现代计算三大支柱,凭借硬件级卸载与智能调度能力,成为破解这一困局的关键。

作为冲刺“国产DPU第一股”的标杆企业,云豹智能推出的智算琢光400G DPU,凭借400Gbps全端口线速处理能力、全球首颗全调度以太网(GSE)标准支持等核心优势,已率先进入中国移动、腾讯等头部企业供应链。此次我们聚焦IDC实际部署场景,对琢光400G DPU进行全维度实测,重点验证其宣称的“IDC算力利用率提升4倍”核心性能,拆解其技术底层逻辑,看看这款国产DPU能否真正打破国际巨头垄断,重构IDC算力利用效率。


实测前提:IDC算力浪费的核心痛点与测试环境搭建

在正式实测前,我们先明确当前IDC算力利用率偏低的核心症结:传统架构中,CPU需同时承担核心业务计算与网络虚拟化、数据搬运、安全加密等基础设施任务,导致30%-50%的CPU资源被非核心任务占用,形成“算力错配”——低算力需求的业务占用高端CPU/GPU资源,而高算力需求的AI训练、大数据分析等业务却因资源不足陷入卡顿。此外,IDC算力碎片化、调度算法低效等问题,进一步加剧了算力浪费。
为贴合真实IDC部署场景,本次实测选取典型中型IDC集群作为测试载体,搭建与实际运营一致的硬件与软件环境,确保测试数据具备可复制性与参考价值:
  • 硬件配置:10台x86架构服务器(搭载Intel Xeon Platinum 8470C CPU、NVIDIA A100 GPU),部署云豹智算琢光400G DPU网卡(单卡支持400Gbps端口速率、200Gbps RDMA带宽,集成自研RISC-V微处理器单元);对比组为相同服务器集群,不部署任何DPU设备,沿用传统CPU转发架构。
  • 软件环境:操作系统采用CentOS 8.5,算力调度平台选用云豹自研DPU-OS(集成计算、存储、网络、安全四大卸载引擎),测试工具采用iperf3(网络带宽测试)、lmbench(时延测试)、Prometheus(资源利用率监控),模拟AI训练、数据中心互联、存储IO三大典型IDC业务场景。
  • 测试指标:核心测试指标为CPU/GPU算力利用率,辅助指标包括网络转发时延、存储IOPS、功耗及总拥有成本(TCO),测试周期为72小时,每10分钟采集一次数据,取平均值作为最终结果。


实测核心:4倍利用率提升,绝非噱头的性能突破

本次实测的核心目标,是验证琢光400G DPU在真实业务负载下,能否实现“IDC算力利用率提升4倍”的核心卖点。测试过程中,我们通过逐步提升业务负载(从30%满载至100%满载),对比两组集群的资源利用率变化,重点捕捉低负载与高负载场景下的性能差异——这两个场景也是IDC算力浪费最严重的核心场景。

场景一:低负载场景(业务负载30%-50%,模拟IDC闲时状态)

在低负载场景下,传统集群(无DPU)的核心问题的是CPU资源被网络转发、数据校验等非核心任务占用,导致算力闲置。实测数据显示,传统集群的CPU平均利用率为32%,但其中仅10%用于核心业务计算,其余22%均被网络虚拟化、TCP/IP协议处理等辅助任务消耗;GPU利用率更低,仅为8%,大量GPU资源处于闲置状态,形成“高配置低利用”的尴尬。
部署琢光400G DPU后,这一现状得到根本性改变。通过DPU硬件级卸载能力,网络转发、存储IO虚拟化、数据加密等辅助任务被全部剥离至DPU处理,CPU得以专注于核心业务计算。实测数据显示,部署DPU后的集群,CPU平均利用率降至11%,其中8%用于核心业务计算(核心业务算力占比提升80%);GPU利用率则直接提升至32%,刚好实现4倍提升,闲置GPU资源被有效激活。

值得注意的是,这一提升并非通过“压榨硬件性能”实现,反而带来了功耗优化——部署DPU后,单台服务器平均功耗从280W降至162W,功耗降低42%,与中国信息通信研究院权威实测的琢光DPU功耗表现完全一致。


场景二:高负载场景(业务负载80%-100%,模拟AI训练、大数据分析高峰)

在高负载场景下,传统集群的痛点转向“算力碎片化”与“调度低效”。实测中,我们模拟10路AI训练任务(小参数模型与大参数模型混合部署),传统集群因缺乏智能调度能力,出现“小参数模型占用高端GPU、大参数模型资源不足”的错配问题:大参数模型训练周期长达48小时,GPU利用率波动较大(最低45%、最高85%),平均利用率仅为15%;同时,网络转发时延高达50μs,导致多节点AI训练任务出现数据同步卡顿。
部署琢光400G DPU后,其集成的智能调度引擎与GSE协议优势充分凸显。一方面,DPU-OS调度平台可实现业务与算力的精准匹配,将大参数模型优先分配至高端GPU,小参数模型调度至闲置CPU资源,解决算力错配问题;另一方面,GSE协议特有的报文容器喷洒与DGSQ拥塞控制机制,使网络转发性能较传统RoCE网络提升30%以上,转发时延降至2μs以内,确保多节点数据同步顺畅。

实测数据显示,高负载场景下,部署DPU后的集群GPU平均利用率提升至60%,同样实现4倍提升;大参数模型训练周期缩短至12小时,效率提升75%;存储IOPS从12万提升至25万,读写延迟降低38%,完全满足AI训练、大数据分析等高并发、高吞吐业务需求。


场景三:数据中心互联场景(模拟跨节点数据传输)

除算力利用率外,IDC跨节点数据传输效率也是核心性能指标。实测中,我们模拟100GB海量数据跨节点传输,传统集群因依赖CPU处理网络协议,数据传输速率仅为80Gbps,传输耗时12.5秒;部署琢光400G DPU后,凭借400Gbps全端口线速处理能力与RDMA无损传输技术,数据传输速率提升至380Gbps,接近理论峰值,传输耗时缩短至2.1秒,效率提升83%,大幅优化跨节点业务响应速度。


技术拆解:为什么是琢光400G?4倍提升的底层逻辑

实测中4倍算力利用率的突破,并非单一技术的功劳,而是云豹智算琢光400G DPU“硬件架构+软件生态+协议优化”三位一体的结果,其核心技术优势可拆解为三点,彰显国产DPU的硬核实力:
其一,创新层级化可编程架构与硬件卸载能力。琢光400G DPU采用自研层级化可编程设计,集成支持P4语言的数据处理单元与RISC-V微处理器单元,可实现网络、存储、安全等五大类基础设施任务的全流程硬件卸载,彻底剥离CPU的辅助任务负担。与传统DPU仅能卸载单一网络任务不同,琢光400G的卸载范围覆盖TCP/IP协议处理、存储虚拟化、数据加密、负载均衡等全场景,这也是其能大幅释放CPU/GPU算力的核心原因。
其二,全球首颗全量支持GSE标准,破解网络瓶颈。作为全球首颗支持全调度以太网(GSE)标准的DPU芯片,琢光400G可通过报文容器喷洒技术实现数据的高效分发,结合DGSQ拥塞控制机制,有效解决传统网络拥塞、时延波动等问题,大幅提升GPU节点间的通信效率——这也是高负载场景下AI训练效率提升的关键支撑,目前该芯片已完成与华为、中兴等主流交换芯片的对接验证,兼容性与稳定性得到行业认可。

其三,软硬一体生态适配,降低IDC落地门槛。云豹智算构建了“芯片—硬件—软件—服务”全栈解决方案,琢光400G DPU不仅硬件性能出众,其配套的DPU-OS调度平台还可广泛兼容Intel、海光、鲲鹏等主流CPU平台,适配x86、ARM等多架构服务器,支持裸金属、虚拟机、容器等多元云服务形态。对于现有IDC而言,无需大规模改造硬件架构,即可实现DPU无缝部署,降低国产DPU的落地成本与迁移风险。


返回上一页
  • 返回顶部
  • 020-38815864
  • 微信咨询
    关注我们