“人工智能和加速计算的交汇将重新定义未来。”在COMPUTEX 2024的主题演讲中,NVIDIA创始人兼首席执行官黄仁勋讲述了AI世界的宏大计划。生成式AI、多模态AI等技术的热潮席卷全球,新一代的智能化数据中心建设如火如荼,海量GPU连接后形成的超级计算集群,离不开更高效的网络支撑。在生成式AI时代,NVIDIA将不断加大以太网络在现代化数据中心中的应用,为AI构建更稳定的运力基础。
NVIDIA Spectrum-X以太网是一个端到端网络平台,包括交换机、DPU、SmartNIC、线缆、收发器和网络软件。而全新的NVIDIA Spectrum-X配备了NVIDIA Spectrum SN5600以太网交换机和NVIDIA BlueField-3 SuperNIC,是首个专为AI构建的以太网网络架构,可以加速生成式AI的性能。从产品特性来看,动态路由、拥塞控制、无损网络等功能对AI负载相关的训练成本和时间都有所缩减,带宽最大化的噪声隔离保证了高性能和性能的可预测性,可以同时运行数千个不同规模的AI应用而不互相干扰。根据NVIDIA的表述,可将生成式AI网络性能较传统以太网网络平台提升1.6倍。
据了解,Spectrum-4融合了Co-Design(协同设计)的技术,使得网络平台与BlueField-3 SuperNIC/DPU可以做到紧密地耦合,以满足瞬时的大规模突发数据传输需求,性能隔离的特性也可以提升多租户、多任务的性能,使其与裸金属环境维持一致。其中,NVIDIA BlueField-3 SuperNIC可以为云和数据中心的计算网络和 存储带来更好的加速体验,提供400Gb/s的网络速度,不仅有 大规模的吞吐量,还有更低的延迟。
众所周知,InfiniBand可以满足高性能、低延迟的负载要求,而Spectrum-X则可以满足多租户、工作负载的多样性,符合生成式AI的特性。再结合王牌NVLink网络,两套网络的组合可以满足不同的场景需求。Spectrum-X解决了数据中心内东西向的流量加速和性能问题,无损RoCE网络在以太网架构下可以不丢包,也支持以太网的RDMA传输。再与NVIDIA BlueField-3 DPU在南北向集成,对GPU资源的弹性扩展、零信任安全等也有很 好的支持。
正是有了分布式、东西向,再加上能够应对密集型突发网络流量,使得Spectrum-X得以更好地解决网络抖动、流量暴增等情况对AI负载的巨大冲击。通过端到端的优化,生成式AI在云端的大规模部署和扩展性在Spectrum-X上变成了可能。当然,Spectrum-X还提供了相应的开发接口、管理软件、操作系统等,具有高度的通用性,可以支持开发者构建软件定义的云原生AI应用。从配置来看,Spectrum-4系统具有1000亿颗晶体管,带宽为51.2Tb/s,采用了100Gb/s SerDes技术,可支持64个800G端口和128个400G端口。
在Spectrum-X中,支持SONiC、Cumulus等各类网络操作系统,围绕DOCA提供各种应用加速功能、使得用户可以根据自身所需进行编程和加速,NVIDIA Air还允许用户使用完整的软件功能对数据中心部署进行建模,从而创建数据中心的数字孪生,通过在数字世界的仿真、验证、以及自动更改和更新来改变和简化现实世界的网络运营。
目前,NVIDIA Spectrum-X以太网网络平台已被广泛使用,并且将进一步加快新品发布计划。率先采用NVIDIA Spectrum-X的AI云服务提供商有CoreWeave、GMO Internet Group、Lambda、Scaleway、STPX Global和Yotta等,他们的AI基础设施因此而获得了超强网络性能。另外,继戴尔科技、慧与、联想和超微等将Spectrum-X平台整合到他们的产品中后,又有多家NVIDIA合作伙伴也发布了基于Spectrum-X的产品,包括永擎电子、华硕、技嘉科技、鸿佰科技、英业达、和硕、云达科技、纬创和纬颖科技等。
未来,NVIDIA计划每年都推出新的Spectrum-X产品,为客户提供更高的带宽、更多的端口、更加强大的软件功能集与可编程能力,持续提高AI以太网网络性能。据悉,2024年的Spectrum-X800将满足数万卡(配合400G SuperNIC和DPU),2025年将满足数十万卡(如xAI项目),2026年将可以满足百万GPU的连接需求。业内预计,Spectrum-X将在一年内跃升为价值数十亿美元的产品线。
NVIDIA网络高级副总裁Gilad Shainer表示:“NVIDIA Spectrum-X是对以太网络的一次革命,让企业能够充分利用其AI基础设施的强大力量来改变其运营方式,甚至颠覆他们的行业。”
评论