AMD专属llama.cpp分支发布：RDNA架构深度优化，MoE推理性能提升4倍

薄荷糖的夏天

原创

05-13

该分支由专注AMD平台深度优化的开发团队长期维护，其设计目标始终围绕RDNA架构特性展开，旨在充分释放AMD GPU在大语言模型推理任务中的实际算力潜力。

此前，官方llama.cpp对AMD设备的支持以通用后端方式实现，其底层计算内核主要面向NVIDIA GPU架构开发，移植至AMD平台后未做针对性重构。在RDNA2架构上，这种移植导致内存带宽利用率偏低，尤其在混合专家模型场景中，运算性能严重受限于显存带宽瓶颈。

本次升级从HIP运行时层入手进行系统性优化：新引入基于BFE技术的IQ4_XS反量化内核，在独立运行条件下相较旧方案提速达13倍；同时新增异步流水线调度机制，将内核启动与计算执行过程重叠，使内核启动开销降低31%。

性能提升的关键突破在于实验性LDS双缓冲矩阵乘法内核。该内核支持权重加载与DP4A整型矩阵运算同步执行，显著提升计算单元利用率与数据通路效率，最终促成混合专家模型场景下约四倍的整体性能增长。

目前该内核需通过手动启用标志激活，尚处于验证阶段。在对称瓦片尺寸配置下，存在LDS存储体访问冲突问题，可能引发延迟波动，因此暂不推荐用于生产环境。相关修复方案已明确并完成设计，后续版本将集成完善支持。

用户可直接调用项目仓库附带的构建脚本完成测试版编译，全程无需修改CMake配置，且该分支完整兼容上游llama.cpp全部既有功能。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



vivo X Fold6(12GB/256GB)

vivo X Fold6(12GB/256GB)

359人评分

100%好评

荣耀X80 Pro Max(8GB/128GB)

荣耀X80 Pro Max(8GB/128GB)

372人评分

80%好评

HUAWEI Mate 80(12GB/256GB)

HUAWEI Mate 80(12GB/256GB)

210人评分

80%好评

苹果iPhone 17 Pro Max（256GB）

苹果iPhone 17 Pro Max（256GB）

534人评分

80%好评

OPPO Find X9 Pro(12GB/256GB)

OPPO Find X9 Pro(12GB/256GB)

423人评分

99%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具