英伟达Blackwell平台全面适配DeepSeek-V4-Pro/V4-Flash大模型-中关村在线

英伟达Blackwell平台全面适配DeepSeek-V4-Pro/V4-Flash大模型

一便士的月亮

原创

04-25

2026年4月25日，英伟达正式宣布其Blackwell平台已完成对DeepSeek-V4-Pro与DeepSeek-V4-Flash两款大语言模型的全面适配。开发者可通过NVIDIA NIM微服务直接下载并部署模型，也可基于SGLang与vLLM等主流推理框架开展定制化开发。

其中，DeepSeek-V4-Pro面向高复杂度推理任务设计，总参数量达1.6万亿，激活参数约为490亿；DeepSeek-V4-Flash则侧重响应速度与资源效率，总参数量为2840亿，激活参数约130亿。两款模型均支持百万级Token上下文长度，单次输出最长可达38.4万Token，可有效支撑长文本理解、多文档联合分析等典型应用场景，并采用MIT开源许可证，允许自由使用与二次开发。

性能测试表明，DeepSeek-V4-Pro在NVIDIA GB200 NVL72系统上实现开箱即用推理吞吐量超过150 tokens/秒/用户；结合vLLM提供的首发优化方案，该模型可在Blackwell架构的B300平台上快速完成部署。随着Dynamo编译器、NVFP4量化技术及CUDA底层内核的持续迭代优化，整体推理效率仍有显著提升空间。

在部署支持层面，NVIDIA NIM微服务提供标准化、低门槛的一键部署能力；SGLang框架则内置低延迟、负载均衡与高吞吐三种预设推理策略，满足差异化服务需求；vLLM支持跨节点横向扩展，可稳定调度百卡以上GPU集群，同时集成工具调用与推测解码等先进推理特性，助力开发者构建高性能、可扩展的大模型应用体系。

展开全文