中关村在线

热点资讯

英伟达发布ProRL方法及全球最强1.5B参数推理模型

近日,英伟达发布了一项新的强化学习方法 ProRL,并基于此开发出当前全球性能最强的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。该模型在多个任务中展现出卓越的推理能力,在数学、编程、STEM、逻辑推理和指令理解等方面均有显著提升。

背景介绍

推理模型是一种专门用于人工智能系统中的技术手段,其核心机制是通过“思维链”(Chain of Thought,CoT)这一复杂过程进行推理,以生成最终答案。在推理训练中,强化学习(Reinforcement Learning,RL)扮演着关键角色。已有研究团队采用具备可验证奖励的强化学习方法(RLVR),推动了 GRPO、Mirror Descent 和 RLOO 等算法的发展。

然而,关于强化学习是否真正能增强大型语言模型(LLM)的推理能力,学界仍存在争议。现有研究表明,在 pass@k 指标上,RLVR 方法并未明显优于原始模型,说明推理能力在一定程度上受限于训练方式。同时,目前大多数研究集中在数学等特定领域,模型容易出现过拟合现象,限制了其多领域探索的潜力。此外,多数实验仅进行几百次训练步数,难以让模型充分挖掘新能力。

ProRL 方法的技术突破

为应对上述挑战,英伟达研究团队提出了 ProRL 强化学习方法。与传统方式不同,ProRL 将强化学习训练时间延长至超过 2000 步,并将训练内容扩展到多个领域,包括数学、编程、STEM、逻辑谜题以及指令遵循任务。整个训练数据集包含约 13.6 万个样本。

研究人员借助 verl 框架和改进版 GRPO 算法,成功训练出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。测试结果显示,该模型在多项基准测试中远超基础模型 DeepSeek-R1-1.5B,甚至在部分指标上优于参数规模更大的 DeepSeek-R1-7B。

具体而言,该模型在数学任务中的平均提升达到 15.7%,编程任务 pass@1 准确率提升了 14.4%,在 STEM 推理和指令理解方面分别提升了 25.9% 和 22.0%。在逻辑谜题任务中,模型的奖励值更是提升了 54.8%,展示了出色的泛化能力。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具