中关村在线

服务器

加速AI和云原生的无限未来 AMD为下一代数据中心奠定关键基础

“AI是塑造下一代计算的决定性技术,也是AMD更大的战略增长机会。”在数据中心与AI技术首映”上,AMD董事会主席兼首席执行官苏姿丰博士坚定地说。毫无疑问,以Chat GPT为代表的生成式AI让人们看到了智能世界的全新未来,基于庞大数据集的各类大模型席卷而来,千行百业的全面云化正在加速,这一切都对传统的计算基础架构提出了新的挑战。对此,AMD显然已经做好了准备。

AMD面向云原生计算、技术计算、网络和AI的战略布局

在本次大会上,AMD推出了第四代AMD EPYC 97X4处理器,这一曾经代号为“Bergamo”的处理器基于Zen 4c架构,每个插槽具有128 个内核,充分考虑了云原生工作负载所需的线程密度规模,提供了更高的能效,使得每台服务器可以支持更多的容器,这些升级体现在每瓦特的性能有着更好的表现,在密度上将对核心进行了优化,让现有架构内的利益最大化,在性能方面做了缓存层级优化,以获得更多的吞吐量。为了更好的满足云端的场景需求,Zen 4c的核心在主频上并没有Zen 4高,但是却换来了更高的核心密度,能效更优,可以说在频率、核心密度、能耗方面找到了比较好的平衡点。

AMD EPYC 97X4 CPU

通过削减Zen 4的L3缓存,AMD在每个CCD的核心数量上,Zen 4cZen 4的8个提升到16个,相当于在每个插槽上的核心数量增加了33%,最终可以容纳128个核心。Zen 4c的内存选择了12通道的DDR5,支持ECC功能,频率达到4800MHz。SP5平台具有全新的插槽,第三代AMD infinity fabric提供了四个链路连接,速度可以达到3232Gbps,用户可以根据需要选择单槽和多槽的解决方案。同时,64条I/O通道可以支持CXL 1.1和更多的功能。安全性方面,专门的安全子系统提供了更强的可靠性,拥有信任根的硬件特性、SME的安全内存加密,以及安全虚拟化的功能。

在第四代AMD EPYC 97X4处理器的应用上,Meta与AMD共同展开了探索,落地在Instagram、WhatsApp等应用场景中,与第三代AMD EPYC相比,Meta使用97X4处理器获得了显著的性能提升和TCO改进,双方还为针对Meta的功效和计算密度优化EPYC CPU进行了深入研究。

在Genoa-X中,AMD增加了每核心的缓存数量,以满足较重的工作负载所需的高性能,降低所受带宽的影响。在一个芯片面积上,容纳了12个CCD,且每个CCD的L3缓存提升了三倍,I/O DieCCD之间可以实现单连接和双连接。由于I/O结构没有改变,使得合作伙伴可以对新产品进行快速、无缝的设计、集成和部署。

AMD EPYC 9004系列处理器的核心数量达到128个,每颗CPU中具有混合的芯片组架构,核心为台积电代工的5纳米工艺,I/O Die则采用6纳米工艺。除了12通道4800 MHz内存频率、128个通道速度32Gbps+8个通道8Gbps之外,CXL 1.1、CXL 3等多种新的内存技术同样可以支持。安全性方面,该处理器支持数据定位、AMD- C ECC(内存自动纠错)、错误实时采集,以及SEV-SNP等安全增强的功能,并且支持AES 256 STS。

AMD EPYC 9004系列处理器的基础之上,采用AMD 3D V-Cache技术的第四代AMD EPYC处理器为技术计算带来了更强的体验,以支持计算流体动力学(CFD)、有限元分析(FEA)、电子设计自动化(EDA)和结构分析等严苛的工作负载,该处理器内置了96个Zen 4核心1GB+三级缓存,可以在Ansys CFX中每天完成更多的设计任务,大幅加速产品开发。

4th Gen AMD EPYC with AMD 3D V-Cache Technology

3D堆叠得益于AMD的Chiplets技术,可以更好的发挥能效优势。通过芯片下方的3D缓存供电等设计,缓存容量得到了更好的扩展。3D V-Cache的内部互联密度要比2D封装大200倍,比Micro Bump 3D封装大15倍/能效高3倍。这样一来,就可以帮助Genoa-X较Genoa在处理EDA负载时的性能提升70%。将3D堆栈设计在CCD之上,与元器件之间的距离相近,再加上三倍的缓存提升和低功耗,是其达到高能效的重要原因。

与英特尔第四代至强可扩展处理器(8490H)的对比

与英特尔第四代至强可扩展处理器(8462Y)的对比

在会议上,微软宣布基于采用AMD 3D V-Cache技术的第四代AMD EPYC处理器的Azure HBv4和HX实例全面投入使用。该产品针对更为苛刻的HPC应用程序进行了优化,与上一代HBv3相比,其最新的实例提供了5倍的性能提升,并可扩展到数十万个CPU核心。

微软基于采用AMD 3D -Cache技术的第四代AMD EPYC处理器的Azure HBv4和HX实例投入使用

AMD在AI领域的投入同样是战略级的,其公布了一系列覆盖云、边缘、终端的硬件产品组合,以及开放的AI软件生态计划。其中,基于下一代AMD CDNA 3架构的AMD Instinct MI300X加速器(Q3送样)支持192 GB的HBM3内存,可以满足大型语言模型生成AI在推理、训练时所需的计算和内存效率AMD Instinct平台则可以把八个MI300X加速器整合(1.5TB HBM3内存)为标准设计提供。AMD还宣布,全球首款用于HPC和AI工作负载的APU加速器AMD Instinct MI300A已向客户提供样品。MI300系列内置了异构计算的混合芯片,有着独特的3D缓存设计,CPU和GPU核心可以共享内存,能够做到更好的每瓦性能和低功耗。

AMD的AI平台覆盖云、边缘、终端的训练和推理场景

AMD Instinct

除此之外,AMD还展示了用于数据中心加速器的ROCm软件生态系统,并表示正在与行业领导者们协作,建立一个开放的AI软件生态系统。会议期间,PyTorch介绍了AMD和PyTorch基金会之间的工作,可以实现ROCm软件堆栈的上游配置,并为所有AMD Instinct加速器上的ROCm 5.4.2版PyTorch 2.0提供即时“零日”支持。这种集成为开发人员提供了广泛且由PyTorch支持的AI模型,这些模型兼容并在AMD加速器上“开箱即用”。 面向AI开发者的开放平台Hugging Face宣布将在AMD平台上优化数千个Hugging Face模型,从AMD Instinct加速器到AMD锐龙和AMD EPYC处理器,再到AMD Radeon GPU和Versal,以及Alveo自适应处理器。

AMD与PyTorch的合作

快速、智能、可靠的网络连接是构建下一代数据中心的重要保障。在会议上,AMD展示了包括AMD Pensando DPU、AMD超低延迟NIC和AMD自适应NIC在内的一系列网络产品组合。AMD Pensando DPU可以将软件堆栈与“零信任安全”和可编程数据包处理器相结合,打造更为智能、性能更强的DPU。AMD还发布了AMD Pensando Software-in-Silicon Developer Kit(SSDK),使客户能够快速开发或迁移服务以部署在AMD Pensando P4可编程DPU上,与AMD Pensando平台上已经实现的现有丰富功能集相配合使用。

AMD P4 DPU

AMD Pensando SmartNICs

目前,AMD Pensando DPU已在IBM Cloud、Microsoft Azure和Oracle Compute Infrastructure等云合作伙伴中大规模部署。在企业中,其被部署在HPE Aruba CX 10000智能交换机中,与IT服务公司DXC等客户合作,作为VMware vSphere Distributed Services Engine的一部分,为客户加速应用程序性能。AMD还透露了代号为“Giglio”的下一代DPU路线图,与当前一代产品相比,该路线图旨在为客户带来更高的性能和能效,预计2023年底上市。

HPE Aruba CX 10000智能交换机

会议上,AMD和AWS展示了由第四代AMD EPYC处理器支持的下一代亚马逊弹性计算云(Amazon EC2)M7a实例预览。亚马逊透露,EC2 M7a实例提供了新的处理器功能,如AVX3-512、VNNI和BFloat16,并允许客户获得比M6a实例高出50%的计算性能,并为AWS带来更广泛的工作负载。目前,双方已为通用、计算优化、内存优化和高性能计算工作负载提供了100多个基于EPYC处理器的实例。DNT、Sprinklr和TrueCar等客户均已从基于AMD的亚马逊EC2实例的显著的成本和云利用率优化中获益。在本次会议之外,Oracle也宣布计划提供搭载了第四代AMD EPYC处理器的全新Oracle计算基础设施(OCI)E5实例。

AMD和AWS展示了由第四代AMD EPYC处理器支持的下一代Amazon EC2 M7a实例预览

AMD的全线新品发布

可以看到,AMD并未满足于在传统x86市场的快速发展,而是将目光望向了更为广阔的AI和云原生领域,在计算、网络、软件等领域全面发力,为智能时代的下一代数据中心奠定了坚实的基础。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具