四月二十五日,英伟达正式宣布完成对DeepSeek-V4人工智能模型的适配支持。开发者可通过NVIDIA NIM微服务直接下载并部署该模型,也可基于SGLang或vLLM等主流推理框架开展灵活定制化应用。
DeepSeek-V4-Pro版本具备1.6万亿总参数与490亿激活参数,专为高复杂度推理任务设计;而DeepSeek-V4-Flash版本则配置2840亿总参数与130亿激活参数,聚焦于低延迟、高吞吐的实时应用场景。两款模型均支持百万级Token上下文长度及最高达38.4万Token的单次输出能力,可全面支撑长文本理解、大规模文档解析等关键任务,并以MIT许可证形式开源。
实际部署测试表明,借助vLLM提供的即用型优化方案,开发者可在Blackwell架构B300硬件平台上实现快速启动与高效运行。后续随着Dynamo编译器、NVFP4稀疏精度支持以及CUDA底层内核的持续迭代升级,模型整体推理性能有望进一步增强。

评论
更多评论