中关村在线

热点资讯

AMD MI355X显卡经深度优化,推理性能对标英伟达B200

2026年5月19日,人工智能加速硬件市场仍由一家企业占据主导地位,其在AI显卡领域的市场份额接近九成。这一优势不仅源于公开参数的领先,更体现在真实负载下的持续算力输出能力上,显著高于其他主要竞争者。不过,行业格局正迎来新的变量。

今年下半年,新一代MI450系列AI显卡将投入量产交付,其整体AI计算效能较前代实现明显跃升。而在新架构落地之前,当前主流部署的MI350X系列仍处于生命周期中期,诸多厂商尚未充分释放其潜力。在此背景下,一家专注AI基础设施优化的云服务企业近日发布了首份基于AMD旗舰级AI显卡MI355X的大模型端到端推理实测报告。

测试在单节点真实环境中展开,覆盖DeepSeek V3.2、Kimi K2.6与GLM-5.1三款主流大语言模型。结果显示,经系统级调优后的MI355X,在多项关键指标上已可与采用Blackwell架构的高端AI显卡B200形成实质性对标。

核心优势首先体现在显存容量上:MI355X配备288GB高带宽显存,较B200的180GB高出逾六成。这一设计在处理超长上下文任务时尤为关键——单卡即可容纳更大规模的中间缓存,避免因显存不足而被迫拆分计算任务,从而降低多卡并行带来的硬件冗余与部署复杂度。

硬件层面的制约同样存在:B200通过NVLink技术实现任意两张显卡间高达900GB/s的互联带宽,而MI355X沿用点对点Infinity Fabric直连方案,理论峰值带宽为537.6GB/s。为弥合这一差距,该团队在软件层构建了针对性解决方案,自主研发张量序列并行(TSP)与树状注意力(Tree Attention)两项核心技术。

其中,树状通信结构替代传统环形拓扑,将解码过程中的计算逻辑与数据传输深度耦合,在不依赖硬件升级的前提下,显著压缩通信开销。实测表明,尽管单请求延迟仍略逊于B200,但在长文本生成、上下文持续扩展等典型生产场景下,MI355X叠加算法优化后的整体吞吐能力已趋近B200水平。

此次验证表明,凭借大容量显存的底层优势,配合深度适配的软件栈,AMD平台完全可在实际AI推理任务中与顶级竞品展开有效竞争。基于本次实践积累,团队已规划将该优化架构应用于1.6万亿参数规模的DeepSeek V4 Pro模型部署,并支持百万级token上下文长度。后续还将为MI355X定制低精度量化策略,并集成扩散式投机采样机制,持续释放硬件潜在算力。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具