中关村在线

热点资讯

腾讯优化AI通信框架,性能提升显著

近日,一家人工智能技术公司公开感谢腾讯技术团队的代码贡献,称其为一次“巨大的加速”提升。

腾讯技术团队对该公司开源的通信框架进行了深入优化,使该框架在多种网络环境下均展现出显著性能提升。实测数据显示,在RoCE网络环境下,通信性能提升了100%;而在IB网络环境下,性能提升幅度也达到了30%。这一改进为企业在开展大规模人工智能模型训练时,提供了更加高效的通信解决方案。

据悉,自今年2月以来,该人工智能公司陆续开源了包括通信框架在内的五大技术模块,并展示了如何在有限硬件条件下实现接近万卡集群的运算效率。其中,该通信框架因其创新设计,在最初版本中便实现了300%的通信效率提升,并有效缓解了MoE架构模型对特定通信库的依赖问题。然而,该框架在成本更低、应用范围更广的RoCE网络环境中的表现并不理想,这也引发了社区对其适用性的持续讨论。

腾讯星脉网络团队在框架开源后迅速投入技术研究,发现其存在两大性能瓶颈:一是双端口网卡的带宽利用率较低,二是CPU控制层面存在延迟问题。通过针对性优化,腾讯团队不仅大幅提升了RoCE网络下的性能表现,同时还将优化成果反哺至IB(InfiniBand)网络环境,使其通信效率进一步提升。

目前,相关优化方案已全面开源,并成功应用于腾讯内部的大模型训练和推理项目。在由腾讯星脉网络与H20服务器构建的高性能计算环境中,该方案表现出良好的兼容性与稳定性。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具