AMD ROCm两周内实现DeepSeek V4推理吞吐量75倍提升

薄荷糖的夏天

原创

05-11

2026年5月11日，SemiAnalysis旗下InferenceX性能测试平台最新报告显示，自DeepSeek V4大模型发布以来，AMD ROCm软件栈在约两周时间内实现了推理吞吐量75倍的显著提升。本次测试涵盖FP4与FP8两种精度，场景设定为典型的8K输入长度与1K输出长度的上下文任务，数据统计截至5月8日。

在保持相同交互响应水平的前提下，单位时间内可处理的token数量同步大幅提升，有效压缩了大模型推理延迟，用户实际使用中的响应流畅度与体验连贯性得到明显增强。

此次性能跃升完全依托于ROCm软件栈自身的深度优化，未依赖任何硬件更新或芯片级变更，充分体现了AMD在人工智能软件生态领域持续加速的技术演进能力。

性能突破主要来自两项关键技术改进：一是融合mHC操作与RoPE哈达玛变换，显著降低CPU资源占用，同时提升高带宽内存HBM的利用效率；二是将索引器、键值缓存压缩器等关键计算模块全面重构为基于TileLang与Triton语言实现，大幅缩短开发周期，加快迭代节奏。

当前，ROCm单节点性能相较英伟达B200仍存在约5倍差距；若以PD解耦架构版本的B200为参照，则尚有1.5倍的优化空间。据现有进展判断，AMD有望在未来数周内达成剩余性能目标，进一步收窄与CUDA生态在AI推理层面的技术代差。

值得注意的是，本次适配工作是在DeepSeek V4正式发布后紧急启动，ROCm团队并未提前获取模型权重参数，仅用约十四天便完成全部软件优化并交付上述成果。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



vivo X300 Ultra(12GB/256GB)

vivo X300 Ultra(12GB/256GB)

70人评分

99%好评

华为畅享90 Pro Max 128GB

华为畅享90 Pro Max 128GB

179人评分

80%好评

OPPO Find X9 Pro(12GB/256GB)

OPPO Find X9 Pro(12GB/256GB)

423人评分

99%好评

苹果iPhone 17 Pro Max（256GB）

苹果iPhone 17 Pro Max（256GB）

534人评分

80%好评

荣耀500 Pro(12GB/256GB)

荣耀500 Pro(12GB/256GB)

343人评分

80%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具