新闻中心

联系我们

了解更多详细信息,请致电

020-38815864

地址:广州市天河区燕岭路120号823
电话:020-38815864
邮箱:cs@cs003.vip

国产十万卡训推集群:昇腾芯片 + MoE 调度算法,AIDC 支持千亿参数模型训练


发布时间:2025-12-30


当通用人工智能浪潮席卷全球,大模型的参数规模与训练算力需求呈指数级增长,千亿乃至万亿参数模型已成为技术竞争的核心赛道。在此背景下,依赖国外芯片与架构的算力体系始终面临"卡脖子"风险。如今,国产十万卡训推集群的横空出世,以昇腾芯片为硬件底座、MoE调度算法为智能引擎,依托人工智能数据中心(AIDC)的基础设施支撑,成功实现千亿参数模型的高效训练,标志着我国在超大规模算力集群领域完成关键突破,构建起自主可控的AI算力生态。


硬件底座:昇腾芯片构建规模化算力基石

算力集群的核心竞争力始于硬件芯片,昇腾系列AI芯片以全栈自主创新打破国外垄断,为十万卡级集群提供了坚实的硬件支撑。与传统芯片简单堆叠不同,昇腾采用创新性的超节点架构设计,其中昇腾384超节点通过高速互联总线实现384颗NPU的全对等互联,摒弃了以CPU为中心的传统架构,使计算单元直接互访,实现全局TB级内存统一编址,通信能力较传统架构提升10倍,彻底解决了大规模集群的通信瓶颈。

这种硬件架构的突破带来了显著的性能跃升:昇腾384超节点采用全液冷设计与光互联技术,算力密度较传统架构提升3倍,能效比优化40%,单节点性能已超越国际同类产品。在此基础上,通过最佳负载均衡组网方案,可将多个超节点组成数万卡的Atlas 900 SuperCluster集群,而甘肃庆阳十万卡国产算力集群的启动建设,更将这一规模推向新高度,其整体算力突破10万P,聚焦"训推一体"能力,可覆盖大模型从预训练到推理的全生命周期。实测数据显示,基于昇腾集群的LLaMA3等千亿稠密模型性能较传统集群提升2.5倍以上,在MoE类模型上性能提升可达3倍,展现出强大的硬件潜力。


智能引擎:MoE调度算法破解规模扩张难题

如果说昇腾芯片是十万卡集群的"肌肉",那么MoE(混合专家)调度算法就是驱动这副肌肉高效运转的"智慧大脑"。随着大模型参数规模迈向千亿级,传统稠密模型的计算成本呈指数级增长,而MoE模型通过动态激活部分专家的稀疏计算特性,成为平衡性能与成本的核心路径,但随之而来的专家负载不均、跨节点通信开销大等问题,成为制约大规模集群应用的关键瓶颈。
国产团队针对这些痛点展开算法创新,构建了多层次的系统优化体系。华为提出的H²P分层混合并行架构,借鉴"专项小组"高效协作模式,对模型不同模块实施精准并行策略:Attention模块采用DP2+TP4组合方案减少通信量,Expert模块设计TP2+EP4模式解决负载均衡,共享专家层采用TP8全芯片并行最大化效率,使Decode阶段吞吐性能较传统方案提升33.1%。在通信优化层面,TopoComm拓扑感知通信方案通过SlimRing算法减少35%的同步次数,结合NHD分级传输机制提升21%的链路带宽,将AllGather通信耗时降低39%。而DuoStream通算融合方案则实现计算与通信的细粒度并发,使Expert模块的通信掩盖率提升至85%以上,硬件利用率提升40%。

这些算法创新已得到实践验证:华为昇腾平台通过DSSN稳定架构与TinyInit小初始化方法,成功完成7180亿参数的盘古Ultra MoE模型全流程训练,万卡集群预训练的MFU(模型计算利用率)从30%提升至41%;Pangu Pro MoE 72B模型在昇腾平台上实现推理性能6至8倍的跨越式提升,单卡解码吞吐峰值达321 tokens/s,充分证明了国产MoE调度算法的领先性。


生态支撑:AIDC构建全链路训练保障体系

十万卡训推集群的高效运行,离不开人工智能数据中心(AIDC)的基础设施支撑。国产AIDC通过算力互联、存储优化、全链路运维等核心能力,为千亿参数模型训练提供了稳定可靠的环境,更实现了算力资源的跨域整合与高效利用。
在算力互联方面,上海AI实验室研发的DeepLink技术方案与运营商AINET算力智联网深度融合,成功将相隔1500公里的上海与济南智算中心互联,完成千亿参数模型混训,等效算力达单集群单芯片算力的95%以上。基于中国电信息壤算网,更是在不到10G带宽的条件下实现北京、上海、贵州三地智算中心互联,等效算力保持90%以上,这意味着国内任意两地的AIDC都可通过该方案整合算力,为十万卡级集群提供弹性扩展能力。

在基础设施保障上,中国移动哈尔滨智算中心作为标志性工程,部署超1.8万张国产AI加速卡,通过参数面与数据面分离的RDMA组网技术,实现"万卡并行训练 + 分钟级断点续训",其自研的智算管控平台可实现算力、存储、网络的全链路可视化运维。北京昇腾人工智能计算中心则基于MindSpore框架与MindFormers套件,实现主流开源模型的快速适配,支持企业用户通过160张卡集群开展二次预训练,大幅降低行业开发者的技术门槛。


产业价值:重塑国产AI算力生态格局

国产十万卡训推集群的落地,不仅破解了千亿参数模型训练的算力瓶颈,更具有深远的产业意义。在技术层面,它实现了从芯片、算法到基础设施的全栈自主创新,打破了国外在超大规模算力领域的垄断,证明了"非摩尔补摩尔、数学补物理"的系统工程创新路径的可行性。在产业层面,该集群已开始支撑金融、政务、工业等垂直领域的AI落地:浦发银行基于昇腾千卡算力集群部署多种主流大模型,实现200多个AI应用场景落地;北京昇腾AIDC已孵化多个金融、政务领域行业大模型,推动AI技术从通用领域向行业深度渗透。
展望未来,随着Atlas 960 SuperCluster等百万卡级集群的规划推进,国产算力规模将实现新的突破。当规模达到当前10倍乃至更大的AI模型出现时,AIDC的跨域算力整合能力将避免天价新建超大型智算中心的成本,通过"低成本组合"满足未来算力需求。国产十万卡训推集群所奠定的技术基础与生态优势,将为我国在通用人工智能时代的竞争提供核心算力保障,推动AI产业实现高质量发展。

返回上一页
  • 返回顶部
  • 020-38815864
  • 微信咨询
    关注我们