加速AI和云原生的无限未来 AMD为下一代数据中心奠定关键基础-中关村在线

“AI是塑造下一代计算的决定性技术，也是AMD更大的战略增长机会。”在数据中心与AI技术首映”上，AMD董事会主席兼首席执行官苏姿丰博士坚定地说。毫无疑问，以Chat GPT为代表的生成式AI让人们看到了智能世界的全新未来，基于庞大数据集的各类大模型席卷而来，千行百业的全面云化正在加速，这一切都对传统的计算基础架构提出了新的挑战。对此，AMD显然已经做好了准备。

AMD面向云原生计算、技术计算、网络和AI的战略布局

在本次大会上，AMD推出了第四代AMD EPYC 97X4处理器，这一曾经代号为“Bergamo”的处理器基于Zen 4c架构，每个插槽具有128 个内核，充分考虑了云原生工作负载所需的线程密度和规模，提供了更高的能效，使得每台服务器可以支持更多的容器，这些升级体现在每瓦特的性能有着更好的表现，在密度上将对核心进行了优化，让现有架构内的利益最大化，在性能方面做了缓存层级优化，以获得更多的吞吐量。为了更好的满足云端的场景需求，Zen 4c的核心在主频上并没有Zen 4高，但是却换来了更高的核心密度，能效更优，可以说在频率、核心密度、能耗方面找到了比较好的平衡点。

AMD EPYC 97X4 CPU

通过削减Zen 4的L3缓存，AMD在每个CCD的核心数量上，Zen 4c把Zen 4的8个提升到16个，相当于在每个插槽上的核心数量增加了33%，最终可以容纳128个核心。Zen 4c的内存选择了12通道的DDR5，支持ECC功能，频率达到4800MHz。SP5平台具有全新的插槽，第三代AMD infinity fabric提供了四个链路连接，速度可以达到3232Gbps，用户可以根据需要选择单槽和多槽的解决方案。同时，64条I/O通道可以支持CXL 1.1和更多的功能。安全性方面，专门的安全子系统提供了更强的可靠性，拥有信任根的硬件特性、SME的安全内存加密，以及安全虚拟化的功能。

在第四代AMD EPYC 97X4处理器的应用上，Meta与AMD共同展开了探索，落地在Instagram、WhatsApp等应用场景中，与第三代AMD EPYC相比，Meta使用97X4处理器获得了显著的性能提升和TCO改进，双方还为针对Meta的功效和计算密度优化EPYC CPU进行了深入研究。

在Genoa-X中，AMD增加了每核心的缓存数量，以满足较重的工作负载所需的高性能，降低所受带宽的影响。在一个芯片面积上，容纳了12个CCD，且每个CCD的L3缓存提升了三倍，I/O Die和CCD之间可以实现单连接和双连接。由于I/O结构没有改变，使得合作伙伴可以对新产品进行快速、无缝的设计、集成和部署。

AMD EPYC 9004系列处理器的核心数量达到128个，每颗CPU中具有混合的芯片组架构，核心为台积电代工的5纳米工艺，I/O Die则采用6纳米工艺。除了12通道4800 MHz内存频率、128个通道速度32Gbps+8个通道8Gbps之外，CXL 1.1、CXL 3等多种新的内存技术同样可以支持。安全性方面，该处理器支持数据定位、AMD- C ECC（内存自动纠错）、错误实时采集，以及SEV-SNP等安全增强的功能，并且支持AES 256 STS。

AMD EPYC 9004系列处理器的基础之上，采用AMD 3D V-Cache技术的第四代AMD EPYC处理器为技术计算带来了更强的体验，以支持计算流体动力学(CFD)、有限元分析(FEA)、电子设计自动化(EDA)和结构分析等严苛的工作负载，该处理器内置了96个Zen 4核心和1GB+三级缓存，可以在Ansys CFX中每天完成更多的设计任务，大幅加速产品开发。

4th Gen AMD EPYC with AMD 3D V-Cache Technology

3D堆叠得益于AMD的Chiplets技术，可以更好的发挥能效优势。通过芯片下方的3D缓存供电等设计，缓存容量得到了更好的扩展。3D V-Cache的内部互联密度要比2D封装大200倍，比Micro Bump 3D封装大15倍/能效高3倍。这样一来，就可以帮助Genoa-X较Genoa在处理EDA负载时的性能提升70%。将3D堆栈设计在CCD之上，与元器件之间的距离相近，再加上三倍的缓存提升和低功耗，是其达到高能效的重要原因。

与英特尔第四代至强可扩展处理器（8490H）的对比

与英特尔第四代至强可扩展处理器（8462Y）的对比

在会议上，微软宣布基于采用AMD 3D V-Cache技术的第四代AMD EPYC处理器的Azure HBv4和HX实例全面投入使用。该产品针对更为苛刻的HPC应用程序进行了优化，与上一代HBv3相比，其最新的实例提供了5倍的性能提升，并可扩展到数十万个CPU核心。

微软基于采用AMD 3D -Cache技术的第四代AMD EPYC处理器的Azure HBv4和HX实例投入使用

AMD在AI领域的投入同样是战略级的，其公布了一系列覆盖云、边缘、终端的硬件产品组合，以及开放的AI软件生态计划。其中，基于下一代AMD CDNA 3架构的AMD Instinct MI300X加速器（Q3送样）支持192 GB的HBM3内存，可以满足大型语言模型和生成式AI在推理、训练时所需的计算和内存效率，AMD Instinct平台则可以把八个MI300X加速器整合（1.5TB HBM3内存）为标准设计提供。AMD还宣布，全球首款用于HPC和AI工作负载的APU加速器AMD Instinct MI300A已向客户提供样品。MI300系列内置了异构计算的混合芯片，有着独特的3D缓存设计，CPU和GPU核心可以共享内存，能够做到更好的每瓦性能和低功耗。

AMD的AI平台覆盖云、边缘、终端的训练和推理场景

AMD Instinct

除此之外，AMD还展示了用于数据中心加速器的ROCm软件生态系统，并表示正在与行业领导者们协作，建立一个开放的AI软件生态系统。会议期间，PyTorch介绍了AMD和PyTorch基金会之间的工作，可以实现ROCm软件堆栈的上游配置，并为所有AMD Instinct加速器上的ROCm 5.4.2版PyTorch 2.0提供即时“零日”支持。这种集成为开发人员提供了广泛且由PyTorch支持的AI模型，这些模型兼容并在AMD加速器上“开箱即用”。面向AI开发者的开放平台Hugging Face宣布将在AMD平台上优化数千个Hugging Face模型，从AMD Instinct加速器到AMD锐龙和AMD EPYC处理器，再到AMD Radeon GPU和Versal，以及Alveo自适应处理器。

AMD与PyTorch的合作

快速、智能、可靠的网络连接是构建下一代数据中心的重要保障。在会议上，AMD展示了包括AMD Pensando DPU、AMD超低延迟NIC和AMD自适应NIC在内的一系列网络产品组合。AMD Pensando DPU可以将软件堆栈与“零信任安全”和可编程数据包处理器相结合，打造更为智能、性能更强的DPU。AMD还发布了AMD Pensando Software-in-Silicon Developer Kit（SSDK），使客户能够快速开发或迁移服务以部署在AMD Pensando P4可编程DPU上，与AMD Pensando平台上已经实现的现有丰富功能集相配合使用。

AMD P4 DPU

AMD Pensando SmartNICs

目前，AMD Pensando DPU已在IBM Cloud、Microsoft Azure和Oracle Compute Infrastructure等云合作伙伴中大规模部署。在企业中，其被部署在HPE Aruba CX 10000智能交换机中，与IT服务公司DXC等客户合作，作为VMware vSphere Distributed Services Engine的一部分，为客户加速应用程序性能。AMD还透露了代号为“Giglio”的下一代DPU路线图，与当前一代产品相比，该路线图旨在为客户带来更高的性能和能效，预计2023年底上市。

HPE Aruba CX 10000智能交换机

会议上，AMD和AWS展示了由第四代AMD EPYC处理器支持的下一代亚马逊弹性计算云（Amazon EC2)M7a实例预览。亚马逊透露，EC2 M7a实例提供了新的处理器功能，如AVX3-512、VNNI和BFloat16，并允许客户获得比M6a实例高出50%的计算性能，并为AWS带来更广泛的工作负载。目前，双方已为通用、计算优化、内存优化和高性能计算工作负载提供了100多个基于EPYC处理器的实例。DNT、Sprinklr和TrueCar等客户均已从基于AMD的亚马逊EC2实例的显著的成本和云利用率优化中获益。在本次会议之外，Oracle也宣布计划提供搭载了第四代AMD EPYC处理器的全新Oracle计算基础设施（OCI)E5实例。

AMD和AWS展示了由第四代AMD EPYC处理器支持的下一代Amazon EC2 M7a实例预览

AMD的全线新品发布

可以看到，AMD并未满足于在传统x86市场的快速发展，而是将目光望向了更为广阔的AI和云原生领域，在计算、网络、软件等领域全面发力，为智能时代的下一代数据中心奠定了坚实的基础。