阿里通义千问团队今日发布了一项开源视觉推理模型QVQ-72B-Preview,该模型基于Qwen2-VL-72B构建,能够通过逻辑推理解决复杂的物理问题。他们对QVQ-72B-Preview进行了四个数据集上的评估,包括MMMU、MathVista、MathVision和OlympiadBench。
测试结果显示,QVQ-72B-Preview在MMMU基准测试中取得了70.3的分数,在剩余三个专注于数学和科学问题的基准测试中表现出色,有效缩小了与领先的最先进的o1模型之间的差距。然而,他们也指出该模型存在一些限制需要注意:语言混合与切换可能会导致响应清晰度受到影响;递归推理可能会导致模型陷入循环逻辑模式而无法得出结论;安全和伦理考虑需要加强以确保可靠和安全的性能;尽管该模型在视觉推理方面有所改善,但它无法完全替代Qwen2-VL-72B的能力,并且在多步骤视觉推理过程中可能会逐渐失去对图像内容的关注。
总体而言,这项研究为增强视觉推理能力提供了新的进展。
评论