小米近日正式宣布开源其首个专注于推理任务的大模型Xiaomi MiMo,这是公司在人工智能领域的一项重要技术突破。
根据官方介绍,在数学推理(AIME 24-25)与代码竞赛(LiveCodeBench v5)的公开测试中,Xiaomi MiMo展现出卓越的性能。在参数量仅为7B的情况下,MiMo的表现超越了OpenAI的闭源推理模型o1-mini,以及阿里巴巴Qwen旗下更大规模的开源推理模型QwQ-32B-Preview。
小米方面表示,MiMo推理能力的显著提升,源自预训练和后训练阶段在数据与算法等多个层面的创新实践。
在预训练阶段,团队主要聚焦于让模型接触更丰富的推理模式。为此,他们特别注重高质量推理语料的挖掘,并合成了约2000亿token的推理相关数据。同时,整个训练过程采用了三阶段递进式策略,逐步提升训练难度,总计训练量达到25万亿token。
在后训练阶段,重点则放在高效的强化学习算法与稳定训练框架的构建上。团队提出了一种名为“Test Difficulty Driven Reward”的算法,用于缓解复杂问题中奖励信号稀疏的问题。同时还引入了“Easy Data Re-Sampling”策略,以提升强化学习训练的稳定性。
此外,MiMo项目还开发了Seamless Rollout系统,有效提升了训练效率。该系统使强化学习的训练速度提升了约2.29倍,验证阶段也实现了1.96倍的加速。
目前,所有相关技术细节均已对外公开,并发布于技术报告中。
同时,MiMo-7B系列全量模型已面向开源社区发布,在HuggingFace平台上已上线4个模型版本,方便开发者和研究人员使用与进一步探索。

评论
更多评论