当地时间周四,英伟达宣布其 Blackwell GPU 在处理 4000 亿参数的 Meta Llama 4 Maverick 模型时,成功刷新了大型语言模型(LLM)推理速度的纪录。
据称,在 AI 基准测试机构 Artificial Analysis 的测试中,使用配备 8 块 Blackwell GPU 的 DGX B200 节点,首次实现了每位用户每秒生成 1000 个 token(TPS)的性能突破。
英伟达表示,技术团队通过对其 TensorRT-LLM 软件栈进行深度优化,并引入 EAGLE-3 技术训练推测解码草稿模型,使整体性能提升了原来的 4 倍。在峰值吞吐量配置下,整套系统可达到每秒生成 72000 个 token 的水平。
官方解释指出,推测解码是一种加速机制,它通过小型且高效的草稿模型预测 token 序列,然后由主模型进行并行验证。这种方法的优势在于单次运算可以生成多个 token,虽然需要额外计算资源用于草稿模型,但显著提升了推理效率。
为了实现这一成果,工程师采用了基于 EAGLE-3 的软件架构。这种架构专为提升大语言模型的推理效率而设计,并与 GPU 硬件形成良好配合。测试数据显示,Blackwell 架构已能够高效运行 Llama 4 Maverick 这类超大规模语言模型。
此外,英伟达还强调,此次性能提升并未牺牲输出质量。实验结果显示,在 FP8 数据格式下,模型的表现与 BF16 格式相当,保持了较高的响应准确性。

评论
更多评论