中关村在线

热点资讯

英伟达GPU刷新大模型推理纪录

当地时间周四,英伟达宣布其 Blackwell GPU 在处理 4000 亿参数的 Meta Llama 4 Maverick 模型时,成功刷新了大型语言模型(LLM)推理速度的纪录。

据称,在 AI 基准测试机构 Artificial Analysis 的测试中,使用配备 8 块 Blackwell GPU 的 DGX B200 节点,首次实现了每位用户每秒生成 1000 个 token(TPS)的性能突破。

英伟达表示,技术团队通过对其 TensorRT-LLM 软件栈进行深度优化,并引入 EAGLE-3 技术训练推测解码草稿模型,使整体性能提升了原来的 4 倍。在峰值吞吐量配置下,整套系统可达到每秒生成 72000 个 token 的水平。

官方解释指出,推测解码是一种加速机制,它通过小型且高效的草稿模型预测 token 序列,然后由主模型进行并行验证。这种方法的优势在于单次运算可以生成多个 token,虽然需要额外计算资源用于草稿模型,但显著提升了推理效率。

为了实现这一成果,工程师采用了基于 EAGLE-3 的软件架构。这种架构专为提升大语言模型的推理效率而设计,并与 GPU 硬件形成良好配合。测试数据显示,Blackwell 架构已能够高效运行 Llama 4 Maverick 这类超大规模语言模型。

此外,英伟达还强调,此次性能提升并未牺牲输出质量。实验结果显示,在 FP8 数据格式下,模型的表现与 BF16 格式相当,保持了较高的响应准确性。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具