近日,英伟达发布了一项新的强化学习方法 ProRL,并基于此开发出当前全球性能最强的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。该模型在多个任务中展现出卓越的推理能力,在数学、编程、STEM、逻辑推理和指令理解等方面均有显著提升。
背景介绍
推理模型是一种专门用于人工智能系统中的技术手段,其核心机制是通过“思维链”(Chain of Thought,CoT)这一复杂过程进行推理,以生成最终答案。在推理训练中,强化学习(Reinforcement Learning,RL)扮演着关键角色。已有研究团队采用具备可验证奖励的强化学习方法(RLVR),推动了 GRPO、Mirror Descent 和 RLOO 等算法的发展。
然而,关于强化学习是否真正能增强大型语言模型(LLM)的推理能力,学界仍存在争议。现有研究表明,在 pass@k 指标上,RLVR 方法并未明显优于原始模型,说明推理能力在一定程度上受限于训练方式。同时,目前大多数研究集中在数学等特定领域,模型容易出现过拟合现象,限制了其多领域探索的潜力。此外,多数实验仅进行几百次训练步数,难以让模型充分挖掘新能力。
ProRL 方法的技术突破
为应对上述挑战,英伟达研究团队提出了 ProRL 强化学习方法。与传统方式不同,ProRL 将强化学习训练时间延长至超过 2000 步,并将训练内容扩展到多个领域,包括数学、编程、STEM、逻辑谜题以及指令遵循任务。整个训练数据集包含约 13.6 万个样本。
研究人员借助 verl 框架和改进版 GRPO 算法,成功训练出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。测试结果显示,该模型在多项基准测试中远超基础模型 DeepSeek-R1-1.5B,甚至在部分指标上优于参数规模更大的 DeepSeek-R1-7B。
具体而言,该模型在数学任务中的平均提升达到 15.7%,编程任务 pass@1 准确率提升了 14.4%,在 STEM 推理和指令理解方面分别提升了 25.9% 和 22.0%。在逻辑谜题任务中,模型的奖励值更是提升了 54.8%,展示了出色的泛化能力。

评论
更多评论