中关村在线

热点资讯

阿里云通义千问 模型为基础训练出能推翻数学论证的人工智能

近日,斯坦福大学和华盛顿大学的李飞飞等研究人员成功训练出一个名为s1的人工智能推理模型。这款模型在数学和编码能力测试中表现出色,与OpenAI的O1和DeepSeek的R1等尖端推理模型相媲美。这一消息引发了AI领域的广泛关注。

经过调查和采访业内专业人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的低成本是建立在已具备强大能力的开源基础模型之上。

根据李飞飞等人的研究论文,s1模型仅使用了1000个样本数据进行训练。然而,在AI领域中,这个数据量被普遍认为是非常小的,通常不足以构建具备推理能力的模型。

上海交通大学人工智能学院谢伟迪副教授表示:“仔细研究斯坦福s1论文会发现,s1模型是在通义千问基础上进行微调的,并非从零开始。尽管只需要很少数量的数据就能实现新的推理效果,但如果换成其他基础模型,则无法获得同样的提升。”

他进一步解释说:“这种能力真正神奇的地方在于通义千问模型本身,而不仅仅是s1。因此,虽然s1模型在测试中表现出色,但其能力和潜力仍需要更深入的研究和验证。”

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具