英伟达发布ProRL方法及全球最强1.5B参数推理模型-中关村在线

英伟达发布ProRL方法及全球最强1.5B参数推理模型

拿铁不加冰

原创

2025-06-05

近日，英伟达发布了一项新的强化学习方法 ProRL，并基于此开发出当前全球性能最强的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。该模型在多个任务中展现出卓越的推理能力，在数学、编程、STEM、逻辑推理和指令理解等方面均有显著提升。

背景介绍

推理模型是一种专门用于人工智能系统中的技术手段，其核心机制是通过“思维链”（Chain of Thought，CoT）这一复杂过程进行推理，以生成最终答案。在推理训练中，强化学习（Reinforcement Learning，RL）扮演着关键角色。已有研究团队采用具备可验证奖励的强化学习方法（RLVR），推动了 GRPO、Mirror Descent 和 RLOO 等算法的发展。

然而，关于强化学习是否真正能增强大型语言模型（LLM）的推理能力，学界仍存在争议。现有研究表明，在 pass@k 指标上，RLVR 方法并未明显优于原始模型，说明推理能力在一定程度上受限于训练方式。同时，目前大多数研究集中在数学等特定领域，模型容易出现过拟合现象，限制了其多领域探索的潜力。此外，多数实验仅进行几百次训练步数，难以让模型充分挖掘新能力。

ProRL 方法的技术突破

为应对上述挑战，英伟达研究团队提出了 ProRL 强化学习方法。与传统方式不同，ProRL 将强化学习训练时间延长至超过 2000 步，并将训练内容扩展到多个领域，包括数学、编程、STEM、逻辑谜题以及指令遵循任务。整个训练数据集包含约 13.6 万个样本。

研究人员借助 verl 框架和改进版 GRPO 算法，成功训练出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。测试结果显示，该模型在多项基准测试中远超基础模型 DeepSeek-R1-1.5B，甚至在部分指标上优于参数规模更大的 DeepSeek-R1-7B。

具体而言，该模型在数学任务中的平均提升达到 15.7%，编程任务 pass@1 准确率提升了 14.4%，在 STEM 推理和指令理解方面分别提升了 25.9% 和 22.0%。在逻辑谜题任务中，模型的奖励值更是提升了 54.8%，展示了出色的泛化能力。

展开全文