2026年6月30日,美团正式发布全新一代万亿参数大模型LongCat-2.0,并同步启动开源计划。
LongCat-2.0是全球首个完全依托国产算力完成从预训练到推理全链路研发的万亿级大模型,总参数量达1.6万亿,采用从零开始的原生预训练方式,原生支持高达100万token的超长上下文处理能力。
在前期开放测试阶段,该模型已在多个国际主流平台展现出强劲应用表现。其在OpenRouter平台的累计调用量稳居全球前三;在Hermes评估体系中,月度调用量位居全球首位;在Claude Code基准下,月度调用量位列全球第二,仅次于当前行业领先水平的Claude Opus 4.8版本。
为推动技术普惠与生态共建,LongCat项目团队宣布将分阶段开源包括底层基础设施框架、高性能推理引擎及完整模型参数在内的核心技术模块,全面向全球开发者社区开放。
该模型预训练所用数据总量超过30万亿tokens,涵盖高质量中文、英文、多语种文本及多种编程语言代码,具备扎实的跨语言与跨模态理解基础。
在万卡规模国产集群训练实践中,团队系统性应对硬件故障频发、节点间通信不稳定、显存资源紧张以及数值计算漂移等关键挑战,围绕稳定性、正确性与训练效率三大维度实现技术突破:
在稳定性方面,通过自研HCCL异常容错机制、弹性扩缩容调度策略及全自动故障恢复流程,将月均单日训练中断率降低逾七成;
在正确性方面,构建确定性算子库,结合逐位一致性校验与实时参数健康监测,显著提升训练过程的可复现性与结果可靠性;同时针对核心计算模块优化数值精度,重构Reduce通信逻辑,增强关键路径的鲁棒性;
在效率方面,依托精细化流水线调度、动态显存管理与算子级核资源调控技术,使模型训练MFU(Model FLOPs Utilization)提升至原有水平的一点五倍。
最终,LongCat-2.0实现稳定日均吞吐量超1万亿tokens,成功完成万亿参数MoE架构模型在纯国产算力平台上的全流程、高可用训练。

评论
更多评论