中关村在线

热点资讯

OpenAI联合巨头开源MRC协议:多路径网络架构突破AI训练通信瓶颈

2026年5月7日,OpenAI通过开放计算项目正式推出多路径可靠连接协议,旨在突破大规模人工智能模型训练中长期存在的GPU网络通信瓶颈。

该协议由OpenAI联合AMD、NVIDIA、Intel、微软及博通共同研发,历时两年完成,目前已在搭载NVIDIA GB200芯片的超算集群中实现规模化部署与实际应用。

在超大规模模型训练过程中,单次数据传输延迟可能引发整套训练流程中断,导致大量GPU进入空转等待状态。随着集群规模持续扩大,网络拥塞、链路异常及设备故障所引起的延迟问题愈发频繁,成为制约训练效率提升的关键障碍。

MRC协议采用创新的网络架构设计:将原本单一的800Gb/s网络接口动态拆分为多条低带宽、高冗余的并行链路。例如,一个800Gb/s端口可分别连接至八台独立交换机,形成八条100Gb/s的物理通路。相较传统依赖单一大带宽链路的方式,这一策略显著提升了通信路径的弹性与容错能力。

该设计对整体网络拓扑产生深远影响。一台具备64个800Gb/s端口的交换机,在MRC架构下可扩展为512个100Gb/s端口,仅需两层交换结构即可支撑约13.1万块GPU的全互联通信。而采用传统800Gb/s方案则需三至四层交换架构才能实现同等规模互联,层级精简不仅降低了端到端延迟,也减少了潜在故障节点数量,进一步增强了系统稳定性。

MRC协议以当前成熟的RDMA over RoCE技术为基础进行深度扩展,全面支持GPU与CPU硬件加速的远程直接内存访问功能,确保数据在异构计算单元之间高效、低开销地流动。

目前,该协议已在Oracle Cloud Infrastructure及微软Fairwater超算平台的GB200集群中投入运行,服务于前沿大模型的训练任务。同时,它也将作为OpenAI正在建设的Stargate超算项目的底层网络核心架构。Stargate项目计划于2029年建成并交付10GW AI算力,截至目前,已累计完成超过3GW的算力部署。

OpenAI宣布将MRC协议向全球AI产业界全面开源,期望以此推动跨企业、跨技术生态的协同创新,合力攻克人工智能基础设施领域最具挑战性的网络通信难题。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具