OpenAI联合巨头开源MRC协议：多路径网络架构突破AI训练通信瓶颈

牛奶秋刀鱼

原创

05-07

2026年5月7日，OpenAI通过开放计算项目正式推出多路径可靠连接协议，旨在突破大规模人工智能模型训练中长期存在的GPU网络通信瓶颈。

该协议由OpenAI联合AMD、NVIDIA、Intel、微软及博通共同研发，历时两年完成，目前已在搭载NVIDIA GB200芯片的超算集群中实现规模化部署与实际应用。

在超大规模模型训练过程中，单次数据传输延迟可能引发整套训练流程中断，导致大量GPU进入空转等待状态。随着集群规模持续扩大，网络拥塞、链路异常及设备故障所引起的延迟问题愈发频繁，成为制约训练效率提升的关键障碍。

MRC协议采用创新的网络架构设计：将原本单一的800Gb/s网络接口动态拆分为多条低带宽、高冗余的并行链路。例如，一个800Gb/s端口可分别连接至八台独立交换机，形成八条100Gb/s的物理通路。相较传统依赖单一大带宽链路的方式，这一策略显著提升了通信路径的弹性与容错能力。

该设计对整体网络拓扑产生深远影响。一台具备64个800Gb/s端口的交换机，在MRC架构下可扩展为512个100Gb/s端口，仅需两层交换结构即可支撑约13.1万块GPU的全互联通信。而采用传统800Gb/s方案则需三至四层交换架构才能实现同等规模互联，层级精简不仅降低了端到端延迟，也减少了潜在故障节点数量，进一步增强了系统稳定性。

MRC协议以当前成熟的RDMA over RoCE技术为基础进行深度扩展，全面支持GPU与CPU硬件加速的远程直接内存访问功能，确保数据在异构计算单元之间高效、低开销地流动。

目前，该协议已在Oracle Cloud Infrastructure及微软Fairwater超算平台的GB200集群中投入运行，服务于前沿大模型的训练任务。同时，它也将作为OpenAI正在建设的Stargate超算项目的底层网络核心架构。Stargate项目计划于2029年建成并交付10GW AI算力，截至目前，已累计完成超过3GW的算力部署。

OpenAI宣布将MRC协议向全球AI产业界全面开源，期望以此推动跨企业、跨技术生态的协同创新，合力攻克人工智能基础设施领域最具挑战性的网络通信难题。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



华为畅享90 Pro Max 128GB

华为畅享90 Pro Max 128GB

179人评分

80%好评

vivo X300 Ultra(12GB/256GB)

vivo X300 Ultra(12GB/256GB)

70人评分

99%好评

OPPO Find X9 Pro(12GB/256GB)

OPPO Find X9 Pro(12GB/256GB)

423人评分

99%好评

苹果iPhone 17 Pro Max（256GB）

苹果iPhone 17 Pro Max（256GB）

534人评分

80%好评

荣耀X70(8GB/128GB)

荣耀X70(8GB/128GB)

19人评分

78%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具