中关村在线

热点资讯

AMD ROCm两周内实现DeepSeek V4推理吞吐量75倍提升

2026年5月11日,SemiAnalysis旗下InferenceX性能测试平台最新报告显示,自DeepSeek V4大模型发布以来,AMD ROCm软件栈在约两周时间内实现了推理吞吐量75倍的显著提升。本次测试涵盖FP4与FP8两种精度,场景设定为典型的8K输入长度与1K输出长度的上下文任务,数据统计截至5月8日。

在保持相同交互响应水平的前提下,单位时间内可处理的token数量同步大幅提升,有效压缩了大模型推理延迟,用户实际使用中的响应流畅度与体验连贯性得到明显增强。

此次性能跃升完全依托于ROCm软件栈自身的深度优化,未依赖任何硬件更新或芯片级变更,充分体现了AMD在人工智能软件生态领域持续加速的技术演进能力。

性能突破主要来自两项关键技术改进:一是融合mHC操作与RoPE哈达玛变换,显著降低CPU资源占用,同时提升高带宽内存HBM的利用效率;二是将索引器、键值缓存压缩器等关键计算模块全面重构为基于TileLang与Triton语言实现,大幅缩短开发周期,加快迭代节奏。

当前,ROCm单节点性能相较英伟达B200仍存在约5倍差距;若以PD解耦架构版本的B200为参照,则尚有1.5倍的优化空间。据现有进展判断,AMD有望在未来数周内达成剩余性能目标,进一步收窄与CUDA生态在AI推理层面的技术代差。

值得注意的是,本次适配工作是在DeepSeek V4正式发布后紧急启动,ROCm团队并未提前获取模型权重参数,仅用约十四天便完成全部软件优化并交付上述成果。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具