该分支由专注AMD平台深度优化的开发团队长期维护,其设计目标始终围绕RDNA架构特性展开,旨在充分释放AMD GPU在大语言模型推理任务中的实际算力潜力。
此前,官方llama.cpp对AMD设备的支持以通用后端方式实现,其底层计算内核主要面向NVIDIA GPU架构开发,移植至AMD平台后未做针对性重构。在RDNA2架构上,这种移植导致内存带宽利用率偏低,尤其在混合专家模型场景中,运算性能严重受限于显存带宽瓶颈。
本次升级从HIP运行时层入手进行系统性优化:新引入基于BFE技术的IQ4_XS反量化内核,在独立运行条件下相较旧方案提速达13倍;同时新增异步流水线调度机制,将内核启动与计算执行过程重叠,使内核启动开销降低31%。
性能提升的关键突破在于实验性LDS双缓冲矩阵乘法内核。该内核支持权重加载与DP4A整型矩阵运算同步执行,显著提升计算单元利用率与数据通路效率,最终促成混合专家模型场景下约四倍的整体性能增长。
目前该内核需通过手动启用标志激活,尚处于验证阶段。在对称瓦片尺寸配置下,存在LDS存储体访问冲突问题,可能引发延迟波动,因此暂不推荐用于生产环境。相关修复方案已明确并完成设计,后续版本将集成完善支持。
用户可直接调用项目仓库附带的构建脚本完成测试版编译,全程无需修改CMake配置,且该分支完整兼容上游llama.cpp全部既有功能。

评论
更多评论