联合UALink，阿里云磐久AI Infra 2.0服务器在2024 OCP峰会上大放异彩-中关村在线

联合UALink，阿里云磐久AI Infra 2.0服务器在2024 OCP峰会上大放异彩

zol深圳站

原创

10-25

10月15日至17日，备受瞩目的开放计算全球峰会（OCP Global Summit）在美国加州圣何塞盛大举行，本届峰会以“从创新到影响力”为主题，吸引了超过7000名来自全球的基础设施软硬件技术和应用领域的专家。作为基础设施和开放计算领域的顶级盛会，特别是在OCP基金会宣布人工智能开放系统战略计划后，本届峰会特别设立了人工智能特别关注议程，旨在推动AI基础设施技术生态的发展。

阿里云的资深服务器研发总监文芳志与UALink联盟主席Kurtis Bowman共同发表了题为《UALink：引领AI加速器革命》的演讲，深入探讨了AI服务器Scale UP互连技术的发展趋势，UALink标准的发展规划，UALink联盟与ALink System产业生态的合作前景，以及阿里云磐久AI Infra 2.0服务器的实际应用策略。

由AI芯片、服务器和CSP厂商联合发起的UALink协议，预计将成为改变AI服务器Scale UP互连技术生态的新行业标准。与专注于Scale out扩展能力的超级以太网联盟（UEC）协议相比，UALink协议以其高性能内存语义访问、显存共享、支持Switch组网模式以及超高带宽和超低时延等优势，正在快速构建一个开放的AI服务器Scale UP互连技术生态。UALink联盟计划于10月底正式成立，并在年底发布第一版UALink spec。

作为AI服务器Scale UP互连开放标准的有力竞争者，UALink标准在业界尤其是中国市场的落地实施面临挑战，ALink System（ALS）产业生态应运而生。ALS提供了具有竞争力的统一标准互连系统，包括ALS-D数据面和ALS-M管控面，为AI训练和推理场景提供了强大的支持。

ALS-D支持UALink国际标准，形成了具有竞争力的数据面方案。当前AI应用在Scale Up网络上的特点包括算法并行切分、大显存共享和GPU多核内存语义编程等。ALS-D数据面互连采用UALink协议，不仅支持高性能内存语义访问和显存共享，还具备超高带宽和超低时延，同时增加了网内计算等特性。

ALS-M为不同芯片方案提供了标准化接入方案，支持开放生态和厂商专有互连协议的统一软件接口。此外，ALS-M还为云计算等集群管理场景提供了灵活和弹性的配置能力。

遵循ALink System规范，阿里云设计了面向下一代超大规模AI集群的磐久AI Infra 2.0服务器，体现了开放生态、高能效、高性能和高可用的设计理念。AI Infra 2.0服务器定义了AI计算节点和Scale Up/Scale Out互连系统，支持业界主流AI方案，推动了AI领域的“一云多芯”发展。

互连系统ALink System全面兼容UALink生态，与行业伙伴共同构建超高性能、大规模的Scale UP集群互连能力，一级互连支持64-80个节点，二级互连可达2000个以上节点，提供了PB级共享显存和TB级互连带宽。

AI Infra 2.0服务器集成了阿里自研的CIPU 3.0芯片，支持高带宽大规模AI服务器的Scale Out网络扩展，同时满足云网络的弹性和安全需求。

在硬件工程方面，AI Infra 2.0服务器单机柜支持最大80个AI计算节点，密度业界领先；采用400V PSU，单体供电效率可达98%，整体供电效率提高2%。散热设计上，机柜级液冷方案根据负载动态调整CDU冷却能力，降低能耗，单柜冷却系统节能30%。运维管理上，全新的CableCartridge后维护设计支持全盲插，零理线易运维、零误操作，维护效率提升50%。

在可靠性方面，AI Infra 2.0服务器支持弹性节点、智能路由、高可靠供电、分布式CDU等技术，能够实时监控和自愈各种硬件故障，将硬件故障域缩减到节点级。

在ALink System产业生态建设上，阿里云坚持开放合作策略，推动互连技术领域的发展。自ALink System产业生态在开放数据中心大会上发布以来，已有20多家AI芯片、互连芯片、服务器整机硬件和IP设计厂商加入，成员单位就相关协议标准制定和实施路径进行了深入交流。

阿里云不仅是UALink的积极支持者和ALink System产业生态的牵头者，还是OCP、CXL、UCIe和UEC等多个互连技术行业组织的创始成员或技术委员会成员，通过实际行动支持开放互连技术标准的制定和实施。

展开全文