中关村在线

热点资讯

苹果+英伟达:AI大语言模型推理速度显著提升

昨日(12月18日),苹果公司与英伟达合作,发布了一项新的技术成果。他们通过开源ReDrafter推测解码方法,显著提升了AI大语言模型(LLM)的推理速度。根据苹果公司的介绍,ReDrafter已集成到NVIDIA TensorRT-LLM推理加速框架中,在NVIDIA GPU上每秒生成tokens的速度最高提升2.7倍。

这项技术的使用将有效降低计算成本和用户延迟,并且越来越多地应用于生产应用程序中。苹果的机器学习研究人员指出,LLM的推理效率对降低计算成本和用户延迟至关重要。

在引入了ReDrafter后,该模型每步可以生成最多3.5个tokens,超过了先前推测性解码技术的性能。为了使这项技术能够应用于生产环境,苹果与NVIDIA展开了合作,并将其集成到了NVIDIA TensorRT-LLM框架中。

根据测试结果,在NVIDIA GPU上使用集成了ReDrafter的TensorRT-LLM框架进行解码时,数百亿参数规模的生产模型的解码速度提高了2.7倍。这不仅降低了用户体验延迟,还减少了GPU使用数量和功耗。

总之,苹果公司与英伟达的合作为AI大语言模型的推理提供了更快、更高效的解决方案。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具