英伟达GPU刷新大模型推理纪录

薄荷糖的夏天

原创

2025-05-24

当地时间周四，英伟达宣布其 Blackwell GPU 在处理 4000 亿参数的 Meta Llama 4 Maverick 模型时，成功刷新了大型语言模型（LLM）推理速度的纪录。

据称，在 AI 基准测试机构 Artificial Analysis 的测试中，使用配备 8 块 Blackwell GPU 的 DGX B200 节点，首次实现了每位用户每秒生成 1000 个 token（TPS）的性能突破。

英伟达表示，技术团队通过对其 TensorRT-LLM 软件栈进行深度优化，并引入 EAGLE-3 技术训练推测解码草稿模型，使整体性能提升了原来的 4 倍。在峰值吞吐量配置下，整套系统可达到每秒生成 72000 个 token 的水平。

官方解释指出，推测解码是一种加速机制，它通过小型且高效的草稿模型预测 token 序列，然后由主模型进行并行验证。这种方法的优势在于单次运算可以生成多个 token，虽然需要额外计算资源用于草稿模型，但显著提升了推理效率。

为了实现这一成果，工程师采用了基于 EAGLE-3 的软件架构。这种架构专为提升大语言模型的推理效率而设计，并与 GPU 硬件形成良好配合。测试数据显示，Blackwell 架构已能够高效运行 Llama 4 Maverick 这类超大规模语言模型。

此外，英伟达还强调，此次性能提升并未牺牲输出质量。实验结果显示，在 FP8 数据格式下，模型的表现与 BF16 格式相当，保持了较高的响应准确性。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



OPPO Find N6(12GB/256GB)

OPPO Find N6(12GB/256GB)

443人评分

100%好评

HUAWEI Mate 80(12GB/256GB)

HUAWEI Mate 80(12GB/256GB)

209人评分

80%好评

荣耀Magic V6(12GB/256GB)

荣耀Magic V6(12GB/256GB)

一加15T(12GB/256GB)

一加15T(12GB/256GB)

1人评分

97%好评

vivo X300 Pro（12GB+256GB）

vivo X300 Pro（12GB+256GB）

360人评分

100%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具