在当今的科技领域,人工智能无疑是最为耀眼的明星,并深入到我们生活中的方方面面,从聊天机器人到自动驾驶,从智能制造到药物研发……随着AI技术的不断进步,算法日益复杂,对算力的需求也迎来了爆发式的增长,也对底层基础设施提出了更高的要求。
诚然,强大的算力是开启数字化赋能新征程、赋能千行百业、连接智算未来的重要载体,也是推动以AI为代表的新质生产力发展的重要驱动力,但这一切都离不开底层基础设施的创新,而亚马逊云科技,正在通过其创新的技术实力,围绕自研芯片、服务器、网络、存储、数据库和软件开发工具等要素构建全面且强大的基础设施,为AI时代勾勒出美好的未来。
纵向扩展:计算性能再提升,低成本高效率“两开花”
虽然大多数人都知道亚马逊云科技是云计算的开创者和引领者,但实际上从亚马逊云科技在2013年推出Nitro1芯片的时候,就不难看到其在自研芯片方面的野心。十多年过去,以自研芯片为代表的基础设施能力仍然在不断演进,这极大拓展了亚马逊云科技的创新边界,进而为广泛而深入的全栈云和AI服务提供了无限可能。
就在不久前的re:Invent 2024大会期间,亚马逊云科技宣布Amazon Trainium2正式可用,其性能比第一代产品提升4倍,可在极短的时间内训练基础模型和大语言模型。其超强的单服务器性能是亚马逊云科技在纵向扩展领域的又一次突破,用以满足大规模生成式AI训练和实时推理的性能需求。同时这也是亚马逊云科技首次将服务器机架搬上主舞台,足见其对Amazon Trainium2及其相关系列基础设施发布的重视程度。
Amazon Trainium2针对AI进行了专门设计,并采用了脉动阵列(Systolic Arrays)的硬件架构,使得计算步骤之间避免频繁的内存访问,直接将结果从一个计算单元传递到下一个计算单元,在减少内存带宽压力的同时优化计算资源,以加快AI计算中的矩阵和张量计算。此外,Amazon Trainium2还提供了Neuron内核接口Neuron Kernel Interface(NKI),这使得开发者可以直接访问裸机的Trainium芯片,编写计算内核以最大限度地提升计算密集型工作负载的性能。
芯片创新之外,在单服务器性能的纵向扩展方面,亚马逊云科技也展开了很多工作,这是因为随着模型复杂性和数据量的增加,因为并行化的限制,单纯扩大集群规模已无法有效缩短训练时间。同时,实时推理的需求也超出了单实例架构的承载能力。因此,提升单服务器性能就显得尤为关键,而Amazon EC2 Trn2实例和Amazon EC2 Trn2 UltraServers服务器就是加强纵向扩展能力的具体体现。
其中,Amazon EC2 Trn2实例配备了16个Trainium2芯片,可提供高达20.8 Petaflops浮点算力的性能,非常适合训练和部署具有数十亿参数的大型语言模型(LLMs),不但如此,与当前基于GPU的EC2 P5e和P5en实例相比,Amazon EC2 Trn2实例的性价比提升了30-40%。
而全新推出的Amazon EC2 Trn2 UltraServers服务器则配备了64个相互连接的Trainium2芯片,采用NeuronLink超速互连技术,可提供高达83.2 Petaflops浮点算力,其计算、内存和网络能力是单一实例的四倍,能够支持训练和部署超大规模的模型。在训练方面,Amazon EC2 Trn2 UltraServers使客户能够突破单个Trn2实例的限制进行扩展,从而减少训练时间,加快投放市场的速度,实现快速迭代以提高模型准确性;而在推理工作负载方面,凭借Amazon EC2 Trn2 UltraServers的超强性能,客户可以用于提升其生产环境中万亿参数模型的实时推理性能。正如亚马逊云科技高级副总裁Peter Desantis所说,“如果你要构建一个万亿参数的AI模型,这就是你需要的服务器。”
当然,对服务器性能纵向扩展的重视也不意味着亚马逊云科技抛弃了超大规模集群,事实上,在re:Invent 2024期间,亚马逊云科技重磅推出了Project Rainier,这是一个拥有数十万个Trainium2芯片的新集群,该集群将支持更大规模和更复杂的AI训练项目,为诸如科研探索、产业升级等需要大规模算力支持的领域开辟了全新的发展空间,助力前沿创新突破重重阻碍,实现跨越式发展。
此外,亚马逊云科技也对下一代自研AI推理芯片Amazon Trainium3进行了剧透,该芯片采用3nm工艺制程,预计将于2025年末正式上线,届时有望使集群性能实现四倍的飞跃式提升,并在性能、能效以及密度等关键指标上树立全新的行业标杆。
横向扩展:创新AI网络架构,加速应用落地
除了选择适配的硬件资源以外,对数据中心而言,高效的网络架构也至关重要,一个超大规模、超高带宽、超强可靠的网络,可以为AI训练提供强有力支撑,从而节约训练成本、缩短训练时间,加速各类AI应用走向落地。
为此,亚马逊云科技推出了第二代UltraCluster网络架构(即10p10u),它不仅能完美支持超过20000个GPU的协同工作,将带宽提高到10Pb/s,更是将延迟严格控制在了10ms以内,这一突破性的网络升级直接使得模型训练时间缩短了至少15%,为那些对实时性要求极高的AI应用场景注入了强大的动力源泉。
具体来说,该架构通过将16根单独光线电缆组成一个单一的连接器,将复杂的组装在工厂完成,从而减少了54%的安装时间;定制的光纤插头和光纤电缆则在机架达到数据中心前就进行了全面的测试和验证,在减少布线时间的同时还提供了保护蜜蜂,防止灰尘颗粒进入光纤接口。在过去的12个月里,亚马逊云科技已经安装了超过300万条链路,这也使得其成为亚马逊云科技有史以来扩展最快的网络。
除此之外,亚马逊云科技还推出了全新的SIDR(Scalable,Intent Driven Routing)网络路由协议,该协议专为解决AI网络中光链路故障频发、路由更新缓慢的问题而设计。它结合了集中规划的全局控制和去中心化的快速响应:中央规划器提前生成“网络意图”并推送到各交换机,当链路故障发生时,交换机可自主决策,避免依赖中央控制器。
与传统的BGP、OSPF等协议相比,SIDR在亚马逊云科技的10p10u网络中能在不到1秒内恢复网络,速度比传统方法快10倍,显著提升了分布式AI训练中的可靠性和实时性,确保网络在故障发生时也能保持高效运行。
全新数据中心组件:支持高密度AI负载,推动可持续发展
从物理机时代到虚拟化时代,再到云计算时代,数据中心一直在持续进化,虽然其形态、架构以及所用到的技术在不断变化,但其始终是业务创新的基石,如今,随着整个社会步入智能化时代,数据中心的设计也开始向适应高功率密度转变,亚马逊云科技也在不断调整和优化数据中心,从而更好地拥抱AI浪潮。
具体来说,在简化电气和机械设计方面,亚马逊云科技最新的数据中心设计优化中包含了简化的电力分配和机械系统,实现基础设施的可用性达99.9999%。同时,简化的系统也将可能受到电气问题影响的数量减少了89%。
在冷却系统方面,亚马逊云科技开发了一项先进的机械冷却解决方案,通过在新建及现有数据中心配置“液体到芯片”的冷却系统,将风冷和液冷实现无缝集成,用于支持包括Amazon Trainium2芯片、NVIDIA GB200 NVL72机架、亚马逊云科技网络交换机和存储服务器在内的基础设施的冷却。无论客户运行传统工作负载还是AI模型,这种灵活的多模式冷却设计都能确保亚马逊云科技以最低的成本为客户提供最佳性能和效率,并加快AI工作负载的上市时间。
为了进一步支持高密度的AI工作负载,亚马逊云科技还通过软件方案优化了数据中心的机架布局以最大化电力使用效率。该软件由数据和生成式AI驱动,能够精确预测服务器的最佳部署方式。根据亚马逊云科技的预计,在未来两年内能够将机架功率密度提升6倍,并有望在未来进一步提升3倍。
控制系统方面,由亚马逊云科技自主研发的控制系统已经应用于亚马逊云科技的电气与机械设备中,实现了监控、报警和运营流程的标准化。例如,利用亚马逊云科技内部构建的遥测工具使用亚马逊云科技的技术,能够提供实时诊断和故障排除服务,这些服务确保客户保持最佳运行状态。此外,亚马逊云科技在提升控制系统冗余度的同时,也简化了系统复杂性。这些改进使得亚马逊云科技基础设施可用性设计达到了99.9999%。
最后在绿色数据中心方面,亚马逊云科技不仅采用了更高效的冷却系统,在维持相同兆瓦用水的前提下减少了46%的机械能耗,还采用了规范的低碳钢和低碳混凝土,结合优化结构设计减少了钢材的使用总量,并且备用发电机也采用了可再生柴油,从而大幅度减少温室气体的排放量,以推动数据中心的可持续发展。
结语
创新是企业赖以生存发展的灵魂,是持续发展的保证,也是驱动数字化转型的核心所在,作为一家将创新贯穿始终的云服务提供商,亚马逊云科技通过在芯片、网络架构、数据中心设计等多个维度的持续创新,不仅引领了行业的变革,也为充满可能性的智算未来打好了基础。
评论