10 月 11 日,AMD 公司在“Advancing AI”大会上推出了新的 Instinct MI325X 加速卡。这款加速卡基于 CDNA 3 架构,相较于旧款 MI300X 带来了一系列改进。旨在应对万亿参数的 AI 模型,AMD 着重提升了 HBM3E 内存和计算能力。
规格和性能方面,MI325X 加速卡配备了 256 GB 的 HBM3E 内存,容量是 MI300(192GB)的 1.8 倍,带宽更是达到了 6 TB/s。在 FP16 训练和推理下达到 1.3 PetaFLOPS,在 FP8 训练和推理下达到 2.6 PetaFLOPS,较 MI300 提升了约 1.3 倍。所有这些功能都集于一个拥有约 1530 亿个晶体管的芯片中。
此外,配备八个 MI325X 加速器的系统可实现 20 TB 的 HBM3E 内存和高达 48 TB/s 的带宽。预计该系统的计算性能将达到 FP16 计算性能约10.4 PetaFLOPS 和 FP8 计算性能约20.8 PetaFLOPS。据 AMD 描述,在内存带宽、FP16/FP8 计算性能上超越 NVIDIA H200 HGX 系统约1.3倍,内存容量上超越约1.8倍。
除此之外,AMD 表示正在与开源社区合作,将 PyTorch、Triton、ONNX 等框架的功能整合到 ROCm 堆栈中,并计划将其引入每款 GPU 中(包括消费级 GPU)。公司还透露将于下半年推出基于 TSMC 3 纳米工艺的 CDNA 4 Instinct MI355X 加速器。
AMD 正努力提高其 AI 加速产品的性能,并与社区紧密合作以不断优化软件开发环境。
评论