苹果+英伟达：AI大语言模型推理速度显著提升

牛奶秋刀鱼

原创

12-19

昨日（12月18日），苹果公司与英伟达合作，发布了一项新的技术成果。他们通过开源ReDrafter推测解码方法，显著提升了AI大语言模型（LLM）的推理速度。根据苹果公司的介绍，ReDrafter已集成到NVIDIA TensorRT-LLM推理加速框架中，在NVIDIA GPU上每秒生成tokens的速度最高提升2.7倍。

这项技术的使用将有效降低计算成本和用户延迟，并且越来越多地应用于生产应用程序中。苹果的机器学习研究人员指出，LLM的推理效率对降低计算成本和用户延迟至关重要。

在引入了ReDrafter后，该模型每步可以生成最多3.5个tokens，超过了先前推测性解码技术的性能。为了使这项技术能够应用于生产环境，苹果与NVIDIA展开了合作，并将其集成到了NVIDIA TensorRT-LLM框架中。

根据测试结果，在NVIDIA GPU上使用集成了ReDrafter的TensorRT-LLM框架进行解码时，数百亿参数规模的生产模型的解码速度提高了2.7倍。这不仅降低了用户体验延迟，还减少了GPU使用数量和功耗。

总之，苹果公司与英伟达的合作为AI大语言模型的推理提供了更快、更高效的解决方案。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



HUAWEI Mate 70(12GB/512GB)

HUAWEI Mate 70(12GB/512GB)

509人评分

79%好评

HUAWEI Mate 70 RS 非凡大师(16GB/512GB)

HUAWEI Mate 70 RS 非凡大师(16GB/512GB)

141人评分

80%好评

vivo S20(8GB/256GB)

vivo S20(8GB/256GB)

926人评分

100%好评

ROG 游戏手机9 Pro(16GB/512GB)

ROG 游戏手机9 Pro(16GB/512GB)

316人评分

78%好评

Redmi K80(12GB/256GB)

Redmi K80(12GB/256GB)

5107人评分

80%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具