NVIDIA Spectrum-X持续进化：生成式AI在以太网络加速演进-中关村在线

“人工智能和加速计算的交汇将重新定义未来。”在COMPUTEX 2024的主题演讲中，NVIDIA创始人兼首席执行官黄仁勋讲述了AI世界的宏大计划。生成式AI、多模态AI等技术的热潮席卷全球，新一代的智能化数据中心建设如火如荼，海量GPU连接后形成的超级计算集群，离不开更高效的网络支撑。在生成式AI时代，NVIDIA将不断加大以太网络在现代化数据中心中的应用，为AI构建更稳定的运力基础。

NVIDIA Spectrum-X以太网是一个端到端网络平台，包括交换机、DPU、SmartNIC、线缆、收发器和网络软件。而全新的NVIDIA Spectrum-X配备了NVIDIA Spectrum SN5600以太网交换机和NVIDIA BlueField-3 SuperNIC，是首个专为AI构建的以太网网络架构，可以加速生成式AI的性能。从产品特性来看，动态路由、拥塞控制、无损网络等功能对AI负载相关的训练成本和时间都有所缩减，带宽最大化的噪声隔离保证了高性能和性能的可预测性，可以同时运行数千个不同规模的AI应用而不互相干扰。根据NVIDIA的表述，可将生成式AI网络性能较传统以太网网络平台提升1.6倍。

据了解，Spectrum-4融合了Co-Design（协同设计）的技术，使得网络平台与BlueField-3 SuperNIC/DPU可以做到紧密地耦合，以满足瞬时的大规模突发数据传输需求，性能隔离的特性也可以提升多租户、多任务的性能，使其与裸金属环境维持一致。其中，NVIDIA BlueField-3 SuperNIC可以为云和数据中心的计算网络和存储带来更好的加速体验，提供400Gb/s的网络速度，不仅有大规模的吞吐量，还有更低的延迟。

众所周知，InfiniBand可以满足高性能、低延迟的负载要求，而Spectrum-X则可以满足多租户、工作负载的多样性，符合生成式AI的特性。再结合王牌NVLink网络，两套网络的组合可以满足不同的场景需求。Spectrum-X解决了数据中心内东西向的流量加速和性能问题，无损RoCE网络在以太网架构下可以不丢包，也支持以太网的RDMA传输。再与NVIDIA BlueField-3 DPU在南北向集成，对GPU资源的弹性扩展、零信任安全等也有很好的支持。

正是有了分布式、东西向，再加上能够应对密集型突发网络流量，使得Spectrum-X得以更好地解决网络抖动、流量暴增等情况对AI负载的巨大冲击。通过端到端的优化，生成式AI在云端的大规模部署和扩展性在Spectrum-X上变成了可能。当然，Spectrum-X还提供了相应的开发接口、管理软件、操作系统等，具有高度的通用性，可以支持开发者构建软件定义的云原生AI应用。从配置来看，Spectrum-4系统具有1000亿颗晶体管，带宽为51.2Tb/s，采用了100Gb/s SerDes技术，可支持64个800G端口和128个400G端口。

在Spectrum-X中，支持SONiC、Cumulus等各类网络操作系统，围绕DOCA提供各种应用加速功能、使得用户可以根据自身所需进行编程和加速，NVIDIA Air还允许用户使用完整的软件功能对数据中心部署进行建模，从而创建数据中心的数字孪生，通过在数字世界的仿真、验证、以及自动更改和更新来改变和简化现实世界的网络运营。

目前，NVIDIA Spectrum-X以太网网络平台已被广泛使用，并且将进一步加快新品发布计划。率先采用NVIDIA Spectrum-X的AI云服务提供商有CoreWeave、GMO Internet Group、Lambda、Scaleway、STPX Global和Yotta等，他们的AI基础设施因此而获得了超强网络性能。另外，继戴尔科技、慧与、联想和超微等将Spectrum-X平台整合到他们的产品中后，又有多家NVIDIA合作伙伴也发布了基于Spectrum-X的产品，包括永擎电子、华硕、技嘉科技、鸿佰科技、英业达、和硕、云达科技、纬创和纬颖科技等。

未来，NVIDIA计划每年都推出新的Spectrum-X产品，为客户提供更高的带宽、更多的端口、更加强大的软件功能集与可编程能力，持续提高AI以太网网络性能。据悉，2024年的Spectrum-X800将满足数万卡（配合400G SuperNIC和DPU），2025年将满足数十万卡（如xAI项目），2026年将可以满足百万GPU的连接需求。业内预计，Spectrum-X将在一年内跃升为价值数十亿美元的产品线。

NVIDIA网络高级副总裁Gilad Shainer表示：“NVIDIA Spectrum-X是对以太网络的一次革命，让企业能够充分利用其AI基础设施的强大力量来改变其运营方式，甚至颠覆他们的行业。”