DeepSeek-V4-Flash开源适配摩尔线程S5000，FP8加速百万级上下文大模型

十三号胡同

原创

04-24

2026年4月24日，DeepSeek正式发布V4预览版并同步开源，该模型具备百万级字符的超长上下文处理能力。

摩尔线程联合智源众智及FlagOS社区宣布，已在旗舰级AI训推一体GPU——MTT S5000上完成DeepSeek-V4-Flash大模型的首日极速适配，全面支持全量核心算子的深度优化与部署。

DeepSeek-V4-Flash采用混合专家（MoE）架构，总参数量达2840亿，每次推理激活参数约130亿，支持百万Token上下文长度，并首次引入FP4与FP8混合精度计算方案，对底层算力硬件提出更高标准。

摩尔线程MTT S5000是国内首款原生支持FP8计算的全功能GPU，内置硬件级FP8 Tensor Core。相较传统BF16或FP16精度，该设计可使显存带宽压力降低50%，同时实现计算吞吐量翻倍提升。

本次适配由智源FlagOS团队主导完成FP8量化工作，重点聚焦FP8核心算子与稀疏注意力（Sparse Attention）算子两大技术方向，取得关键进展：一方面依托FlagTree编译器实现精细化张量形状对齐与矩阵运算加速；另一方面通过FlagOS-Tune自动搜索最优内核配置，性能显著优于人工调优。实测数据显示，启用自动调优后，首词生成时延（TTFT）下降16.5%，逐词生成时延（ITL）下降39.7%，整体吞吐量提升65.7%。

目前，DeepSeek-V4-Flash已在MTT S5000平台完成全面适配；更大规模的DeepSeek-V4-Pro版本（参数量1.6万亿）亦正加速推进迁移与适配工作。

开发者可通过魔塔平台及HuggingFace获取预置镜像，即刻部署使用。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



vivo X300 Ultra(12GB/256GB)

vivo X300 Ultra(12GB/256GB)

45人评分

100%好评

华为畅享90 Pro Max 128GB

华为畅享90 Pro Max 128GB

177人评分

80%好评

OPPO Find X9 Pro(12GB/256GB)

OPPO Find X9 Pro(12GB/256GB)

423人评分

99%好评

Redmi Turbo 5 MAX(12GB/256GB)

Redmi Turbo 5 MAX(12GB/256GB)

349人评分

80%好评

iQOO Z11 Turbo(12GB/256GB)

iQOO Z11 Turbo(12GB/256GB)

418人评分

100%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具