昨日(12月18日),苹果公司与英伟达合作,发布了一项新的技术成果。他们通过开源ReDrafter推测解码方法,显著提升了AI大语言模型(LLM)的推理速度。根据苹果公司的介绍,ReDrafter已集成到NVIDIA TensorRT-LLM推理加速框架中,在NVIDIA GPU上每秒生成tokens的速度最高提升2.7倍。
这项技术的使用将有效降低计算成本和用户延迟,并且越来越多地应用于生产应用程序中。苹果的机器学习研究人员指出,LLM的推理效率对降低计算成本和用户延迟至关重要。
在引入了ReDrafter后,该模型每步可以生成最多3.5个tokens,超过了先前推测性解码技术的性能。为了使这项技术能够应用于生产环境,苹果与NVIDIA展开了合作,并将其集成到了NVIDIA TensorRT-LLM框架中。
根据测试结果,在NVIDIA GPU上使用集成了ReDrafter的TensorRT-LLM框架进行解码时,数百亿参数规模的生产模型的解码速度提高了2.7倍。这不仅降低了用户体验延迟,还减少了GPU使用数量和功耗。
总之,苹果公司与英伟达的合作为AI大语言模型的推理提供了更快、更高效的解决方案。
评论