在惊叹于AI算力的迅猛增长时,我们不禁会想到那个经典的哲学问题:是先有鸡还是先有蛋?换句话说,是AI 的崛起成就了NVIDIA,还是NVIDIA的创新推动了AI市场的蓬勃发展?
这个问题的答案,或许可以从 NVIDIA创始人兼首席执行官黄仁勋的理念中找到线索。他曾说过最喜欢的是“Zero-Billion-DollarMarkets”——那些尚未被满足的需求、有待解决的问题,都具备成为这一市场的潜力,而这也会促使他去思考,如何以全新的方式去创造市场而不是在已有的市场中简单迭代。事实证明,NVIDIA正是通过革命性的GPU,将AI应用从概念落地,并转变为繁荣且潜力无限的产业,从而证明了技术创新对塑造市场的关键作用。
当前,生成式AI的兴起带来了新的挑战和机遇。随着AI大模型参数规模的不断扩大,GPU集群的急剧扩张对网络通信提出了更高要求。面对传统以太网在大规模AI算力集群中的捉襟见肘,NVIDIA率先推出了专门面向AI的以太网,不仅提升了算力集群的性能和效率,更是在AI算力网络市场开辟了新的战场。
AI的爆发驱动了以太网的变革,是否预示着又一个“Zero-Billion-DollarMarkets”的诞生?日前,NVIDIA网络高级副总裁GiladShainer 接受了与非网采访,分享了他对AI以太网变革的洞见,以及NVIDIA在这一领域的战略布局和未来愿景。
AI“运力”变革——生成式AI发展的关键
在生成式AI的迅猛增长下,行业面临着一个关键转折点:网络技术的变革。这是因为在超大规模GPU集群中,网络“运力”和GPU“算力”共同构成了集群的整体性能,只有二者都达到高性能时,才能实现计算性能和效率的最大化,AI集群才能发挥出最大的效力,实现高效的数据处理和智能计算。这也意味着,这场变革不仅关乎技术进步,更关乎整个行业如何重新定义网络在推动业务创新和数字化转型中的作用。
随着AI工作负载的增长,特别是大语言模型和其他基础AI模型的发展,数据中心网络技术正经历着革命性变化。以AI 工厂和AI云为代表的新型数据中心逐渐成为主流,它们专为AI工作负载量身定制,加速计算和高性能网络在这里至关重要。
从所面向的应用场景来看,AI工厂是NVIDIA面向大规模、大算力、高性能AI场景下,基于其NVLink+InfiniBand无损网络架构所实现的新型AI数据中心,一些成功的大语言模型都基于这一网络架构;而AI云则需要响应客户在云环境中构建其生成式AI 或AI工作负载的需求,这一场景具有典型的多租户、工作负载多样性等特点。
据GiladShainer 分享,近一半已经部署的AI云,在计算网络上采用的是传统以太网。另据IDC数据显示,目前面向数据中心的网络交换机市场中,85%以上的产品依然采用以太网技术。
过去数十年以来,传统以太网凭借兼容性、成本效益、灵活性和多租户场景支持等优势,已经成为各行业网络基础设施的核心,广泛应用于数据中心和企业网络。
然而,随着AI应用的快速发展,生成式AI对低延迟、高带宽、无限可扩展和高可靠性等根本需求,恰恰是传统以太网难以满足的。它作为有损网络,固有的短板包括:更高的交换机延迟;分割缓冲交换机架构,而这可能会导致带宽分配不公平;针对AI工作负载生成的大象流,基于传统ECMP的负载均衡策略面临优化挑战;此外还有性能隔离和多业务噪声问题等等。
在实际的AI工作负载中,这会引起一系列性能和效率问题,例如:如果出现链路故障,可能会导致集群的AI性能减半;交换机带宽分配不均导致有些业务的延迟增加,最终导致性能瓶颈,进而阻碍业务决策,特别是在金融行业中的高频交易和风险管理,以及医疗领域的远程诊断和紧急响应等应用场景中;此外,在应对计算密集型任务时,传统以太网制约了数据中心的扩展和服务效率;并且,AI应用的多样化和多租户环境,也要求网络提供更灵活的配置和性能隔离。
面对传统以太网的种种掣肘,NVIDIA率先对其发起变革,这也正是 NVIDIASpectrum-X 以太网网络平台的诞生背景。
作为全球首个专为AI打造的以太网架构,Spectrum-X可以提供端到端400Gb/s带宽,将生成式AI网络性能提升至传统以太网的1.6倍,并提供一致且可预测的结果。这一创新不仅扩展了NVIDIA业务的触及范围,更重要的是,它为企业客户解锁了分布式AI加速计算的更大潜能,推动业务向更高效率和更广阔的可能性迈进。
目前,NVIDIA在网络领域的战略布局正在收获显著成效。据其2025 财年Q2财报,网络收入环比增长16%,其中,AI以太网收入(包括Spectrum-X端到端以太网平台)环比翻一番。并且,Spectrum-X平台获得了OEM 和ODM的广泛支持,并被云服务商、GPU云提供商和企业广泛采用。
GiladShainer 透露,Spectrum-X正在批量交付中,有望在一年内成为一个价值数十亿美元的产品线。同时,NVIDIA正在不断优化供应链策略,以满足市场的旺盛需求。未来,NVIDIA计划每年推出新一代Spectrum-X产品,通过提供更高的带宽、更多的端口以及增强的软件功能集和可编程性,来推动AI以太网网络性能的持续领先。
专为生成式AI而生的Spectrum-X
Spectrum-X以 SpectrumSN5600 交换机和 BlueField-3SuperNIC 为核心,通过无损网络与RDMA、动态路由、拥塞控制等创新,不仅实现了最大带宽和业务噪声隔离,更为数千个并发的AI任务提供了可预测的结果。以下是Spectrum-X面向AI应用的核心技术:
?无损网络技术和RDMA(远程直接内存访问)革新了数据传输,为AI负载提供了快速、直接的数据访问能力,提高了传输效率。这一技术特别适合对性能要求极高的AI 应用。
?动态路由和基于包的负载分担技术,有效解决了AI工作负载产生的大象型数据流的负载均衡问题,这些数据流容易导致网络拥塞和延迟。Spectrum-X通过端到端的动态路由和基于数据包的负载均衡,为AI和数据密集型应用提供了高性能、低延迟和无限可扩展的网络环境。
?拥塞控制为多租户AI云环境提供了高效、低延迟的网络控制策略。通过硬件遥测技术,Spectrum-X端到端解决方案能够快速响应网络拥塞,实现实时流量控制,避免了传统方法中可能出现的高延迟和数据包丢失问题。
?在性能隔离和安全方面,Spectrum-X平台的Spectrum-4在交换网络上和BlueField-3SuperNIC 和DPU端侧提供了全面的解决方案。具备了硬件级的安全功能,BlueField-3DPU 在端侧能够实现全线速的数据处理和加解密,同时保持业务的高性能。BlueField-3SuperNIC 和Spectrum-4交换机的配合在以太网上率先实现了多任务性能隔离,确保了多用户和多应用环境下的可预测性能,这对于AI云服务的稳定性和安全性至关重要。
除了平台本身的性能和效率提升,Spectrum-X还提供 NVIDIA加速软件和软件开发套件(SDK),使开发人员能够构建软件定义的云原生AI应用。这种端到端的功能交付,可以减少基于transformer的大规模生式AI模型的调试和运行时间,助力网络工程师、AI数据科学家和云服务商及时取得更好的结果,并更快做出决策。
对于Spectrum-X的突破,GiladShainer 指出,“如果没有端到端的全栈式创新,Spectrum-X的能力将无从谈起。”
不仅如此,NVIDIASpectrum-X 网络平台具有高度的通用性,确保了Spectrum-X能够无缝集成到现有网络基础设施中,这不仅降低了部署成本和复杂性,也为未来在AI场景中大规模使用以太网解决方案奠定了基础,为AI网络解决方案市场的爆发提供了动力。
迅速崛起的AI以太网生态
考虑到基于以太网部署是生成式AI的趋势之一,NVIDIA将会持续推进服务器节点内外的网络优化和创新。
现有AI大模型系统的网络互连技术主要分为两类,一类是纵向扩展(Scale-up),主要是一个计算节点内部不同加速卡之间的互连或者一定量的加速卡组成一个超高性能的共享内存的系统;一类是横向扩展(Scale-out),主要指不同计算节点之间的互连或者多个Scale-up组之间的互连。
NVIDIA的纵向扩展网络目标正是利用超快NVLink网络使数个直至数百个 GPU 之间实现算力和内存的池化,成为一个“巨大的GPU”。如果在此基础上继续扩展到更大规模,就需要进行横向扩展,可以采用NVIDIAQuantum-X800 InfiniBand 和Spectrum-X以太网等高性能网络。
“这种将NVLink 与InfiniBand或Spectrum-X相结合的方法,对基于领先的NVIDIA计算架构的系统部署、实现前所未有的GPU规模至关重要”,GiladShainer 强调。他以法国云服务提供商Scaleway为例,介绍了NVIDIA如何通过高性能GPU和网络平台帮助其应对生成式AI 的挑战。
具体而言,Scaleway将HGXHopper GPU 服务器纳入其GPU集群阵容,利用大规模GPU集群的速度和效率来加速AI分布式工作负载;在横向扩展的AI网络方面,Scaleway部署了Spectrum-X网络平台。也正是通过采用NVIDIA的综合解决方案,Scaleway有效增强了AI计算能力并缩短了AI模型训练时间,同时加速了AI解决方案的开发、部署和上市时间。
目前,Coreweave、GMOInternet Group、LambdaLabs、Scaleway、STPXGlobal 和Yotta等云服务提供商和企业正在采用Spectrum-X平台,为其AI基础设施带来更高的网络性能。此外,NVIDIAOEM 合作伙伴正在提供基于Spectrum-X的全栈解决方案,ODM合作伙伴正在将BlueField-3SuperNIC 集成到他们的系统中,并通过NVIDIA的参考架构提供Spectrum-X解决方案。
为了应对云服务提供商在构建AI云、使用加速计算技术和高性能网络支持AI业务方面的挑战,NVIDIA正在通过持续的生态系统建设来推动Spectrum-X平台部署,支持更广泛的生成式AI 应用落地。
GPU之后,下一个“Zero-Billion-DollarMarkets”?
根据IDC预测,生成式AI数据中心以太网交换机市场将以70%的年复合增长率增长,从2023 年的6.4亿美元增长到2028 年的90.7亿美元。这一预测不仅进一步证明了Spectrum-X平台的前瞻性,也彰显了它在未来市场中巨大的商业潜力。
如今,从金融到医疗,从工业到媒体娱乐,各行业都在寻求通过AI技术提升业务效率和创新能力。NVIDIASpectrum-X平台不仅突破了传统以太网的瓶颈,显著提升了网络性能和效率,更重要的是,它引领了行业对网络技术的重新思考,确保以太网在生成式AI时代仍然是一种可靠且面向未来的技术,为AI基础设施的未来发展奠定基础。
根据NVIDIA今年的预测,全球数据中心基础设施的安装基数在未来五年内有望翻一番,这将带来每年数千亿美元的市场机会。
生成式AI带来的深远影响才刚刚开始,越来越多的行业在加入生成式AI的阵营。正如开篇所讨论,NVIDIA总是希望通过技术创新塑造市场,Spectrum-X已经展现出了这一潜力,而这也将助推NVIDIA站上一个新的万亿美元市场的台阶,引领AI技术的又一次飞跃发展。
评论