阿里通义千问发布视觉推理模型QVQ-72B-Preview

两三杯可乐

原创

12-25

阿里通义千问团队今日发布了一项开源视觉推理模型QVQ-72B-Preview，该模型基于Qwen2-VL-72B构建，能够通过逻辑推理解决复杂的物理问题。他们对QVQ-72B-Preview进行了四个数据集上的评估，包括MMMU、MathVista、MathVision和OlympiadBench。

测试结果显示，QVQ-72B-Preview在MMMU基准测试中取得了70.3的分数，在剩余三个专注于数学和科学问题的基准测试中表现出色，有效缩小了与领先的最先进的o1模型之间的差距。然而，他们也指出该模型存在一些限制需要注意：语言混合与切换可能会导致响应清晰度受到影响；递归推理可能会导致模型陷入循环逻辑模式而无法得出结论；安全和伦理考虑需要加强以确保可靠和安全的性能；尽管该模型在视觉推理方面有所改善，但它无法完全替代Qwen2-VL-72B的能力，并且在多步骤视觉推理过程中可能会逐渐失去对图像内容的关注。

总体而言，这项研究为增强视觉推理能力提供了新的进展。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



HUAWEI Mate 70(12GB/512GB)

HUAWEI Mate 70(12GB/512GB)

509人评分

79%好评

HUAWEI Mate 70 RS 非凡大师(16GB/512GB)

HUAWEI Mate 70 RS 非凡大师(16GB/512GB)

141人评分

80%好评

vivo S20(8GB/256GB)

vivo S20(8GB/256GB)

926人评分

100%好评

ROG 游戏手机9 Pro(16GB/512GB)

ROG 游戏手机9 Pro(16GB/512GB)

316人评分

78%好评

OPPO Reno 13(12GB/256GB)

OPPO Reno 13(12GB/256GB)

821人评分

99%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具