中关村在线

热点资讯

Deepseek R1模型将训练时间缩短至2-3周

近日,科技界正在热烈讨论着“DeepSeek”这个词。据了解,DeepSeek-R1在数学、代码自然语言推理等领域已经达到了与OpenAI的GPT-1正式版相当的水平,在全球范围内引起了广泛关注。最近,DeepSeek的研究人员在线透露了一个消息:R1的训练过程只需要两周左右的时间,而且研究员们即使在春节期间也没有停止研究,他们还在继续努力工作。

几天前,Daya Guo分享了一条推文,他表达了他对R1-Zero模型性能曲线持续增长的兴奋之情,并赞扬了强化学习(RL)所带来的巨大潜力。当被问及关于DeepSeek R1以及公司未来计划时,Daya Guo表示这只是个开始,并且他们内部正在快速推进研究。他还强调,在春节期间,研究人员一直在加班加点地进行研究。

对于网友提问:“如果不是秘密的话,请问这次RL训练进行了多长时间?” Daya Guo回答说:“660B参数的R1-Zero和R1是在V3版本发布后才开始训练的,整个过程大约花费了2-3周的时间。”此外,他还透露团队正在尝试将R1应用于形式化证明环境,并希望能够尽快向社区发布更优秀的模型。从Daya Guo的话语中可以感受到他们在这个领域已经取得了一定的进展,未来可能会有更多重量级的模型问世,令人期待不已。

[版权所有,未经许可不得转载]

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具