中关村在线

热点资讯

阿里通义千问发布视觉推理模型QVQ-72B-Preview

阿里通义千问团队今日发布了一项开源视觉推理模型QVQ-72B-Preview,该模型基于Qwen2-VL-72B构建,能够通过逻辑推理解决复杂的物理问题。他们对QVQ-72B-Preview进行了四个数据集上的评估,包括MMMU、MathVista、MathVision和OlympiadBench。

测试结果显示,QVQ-72B-Preview在MMMU基准测试中取得了70.3的分数,在剩余三个专注于数学和科学问题的基准测试中表现出色,有效缩小了与领先的最先进的o1模型之间的差距。然而,他们也指出该模型存在一些限制需要注意:语言混合与切换可能会导致响应清晰度受到影响;递归推理可能会导致模型陷入循环逻辑模式而无法得出结论;安全和伦理考虑需要加强以确保可靠和安全的性能;尽管该模型在视觉推理方面有所改善,但它无法完全替代Qwen2-VL-72B的能力,并且在多步骤视觉推理过程中可能会逐渐失去对图像内容的关注。

总体而言,这项研究为增强视觉推理能力提供了新的进展。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具