华为发布昇腾超节点技术，突破AI训练瓶颈-中关村在线

华为发布昇腾超节点技术，突破AI训练瓶颈

海是天的倒影

原创

2025-05-25

2025年5月23日，在昇腾AI开发者峰会上，华为发布了昇腾超节点技术，成功实现业界最大规模的384卡高速总线互联。

随着大模型的发展不断推进，参数量与训练效率之间的平衡成为关键课题。一方面，模型能力持续向极限逼近；另一方面，新型架构与工程技术正加快模型在各行业的落地应用。在此趋势下，MoE（混合专家）结构逐渐成为主流，其复杂的混合并行策略也带来了更高的通信需求，TP、SP、EP等并行方式单次通信量可达GB级别，传统架构难以有效支撑。随着并行规模不断扩大，服务器之间的跨机带宽逐渐成为训练效率的瓶颈，亟需通过架构创新突破性能限制。

以往服务器主要依赖以太网进行跨机通信，但其带宽相对有限。实际应用表明，当采用TP、SP或EP等混合并行策略且并行卡数超过8张时，跨机通信已难以满足高带宽需求，系统整体性能明显下降。

昇腾超节点技术改变了传统以CPU为核心的冯·诺依曼架构，创新性地引入对等计算架构，借助高速总线互联技术实现突破。该技术将原本局限于服务器内部的总线扩展至整机柜甚至跨机柜连接，在超节点范围内用高速总线取代传统以太网络，通信带宽提升15倍，单跳通信时延从2微秒降至200纳秒，降低了90%，使整个集群如同一台高性能计算机协同运作，有效打破了系统性能瓶颈。

据官方介绍，本次发布的昇腾384超节点由12个计算柜和4个总线柜组成，是目前业界规模最大的超节点系统。依托华为多年在ICT领域的技术积累，采用优化的组网方案，该系统可进一步扩展为包含数万个计算单元的Atlas 900超级集群，为未来更大规模模型的演进提供坚实支撑。

测试数据显示，在昇腾超节点集群上运行LLaMA 3等千亿参数稠密模型时，性能较传统集群提升2.5倍以上；在通信负载更高的Qwen、DeepSeek等多模态及MoE模型中，性能提升达3倍以上，相较行业其他方案领先1.2倍，展现出卓越的技术优势。

展开全文