2026年5月7日,OpenAI通过开放计算项目正式推出多路径可靠连接协议,旨在突破大规模人工智能模型训练中长期存在的GPU网络通信瓶颈。
该协议由OpenAI联合AMD、NVIDIA、Intel、微软及博通共同研发,历时两年完成,目前已在搭载NVIDIA GB200芯片的超算集群中实现规模化部署与实际应用。
在超大规模模型训练过程中,单次数据传输延迟可能引发整套训练流程中断,导致大量GPU进入空转等待状态。随着集群规模持续扩大,网络拥塞、链路异常及设备故障所引起的延迟问题愈发频繁,成为制约训练效率提升的关键障碍。
MRC协议采用创新的网络架构设计:将原本单一的800Gb/s网络接口动态拆分为多条低带宽、高冗余的并行链路。例如,一个800Gb/s端口可分别连接至八台独立交换机,形成八条100Gb/s的物理通路。相较传统依赖单一大带宽链路的方式,这一策略显著提升了通信路径的弹性与容错能力。
该设计对整体网络拓扑产生深远影响。一台具备64个800Gb/s端口的交换机,在MRC架构下可扩展为512个100Gb/s端口,仅需两层交换结构即可支撑约13.1万块GPU的全互联通信。而采用传统800Gb/s方案则需三至四层交换架构才能实现同等规模互联,层级精简不仅降低了端到端延迟,也减少了潜在故障节点数量,进一步增强了系统稳定性。
MRC协议以当前成熟的RDMA over RoCE技术为基础进行深度扩展,全面支持GPU与CPU硬件加速的远程直接内存访问功能,确保数据在异构计算单元之间高效、低开销地流动。
目前,该协议已在Oracle Cloud Infrastructure及微软Fairwater超算平台的GB200集群中投入运行,服务于前沿大模型的训练任务。同时,它也将作为OpenAI正在建设的Stargate超算项目的底层网络核心架构。Stargate项目计划于2029年建成并交付10GW AI算力,截至目前,已累计完成超过3GW的算力部署。
OpenAI宣布将MRC协议向全球AI产业界全面开源,期望以此推动跨企业、跨技术生态的协同创新,合力攻克人工智能基础设施领域最具挑战性的网络通信难题。

评论
更多评论