通义千问Qwen2-VL最新亮相综合大学题目理解成绩优异

散落的星星沙

原创

08-30

通义千问最新推出了第二代视觉语言模型Qwen2-VL。这款旗舰型号的Qwen2-VL-72B API已经登陆了阿里云百炼平台。

根据调查，Qwen2-VL在多个权威测评中刷新了多模态模型的最佳成绩，部分指标甚至超过了GPT-4o和Claude3.5-Sonnet等闭源模型。

仅一年时间，该模型下载量就突破了1000万次。目前，多模态模型在手机、车端等各种视觉识别场景中的应用正在加速推进，开发者和应用企业也非常关注Qwen-VL的更新迭代。

与上一代模型相比，Qwen2-VL的基础性能得到了全面提升。它能够理解不同分辨率和不同长宽比的图片，在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试中表现出全球领先的成绩。此外，它还能够理解长达20分钟以上的视频，并支持基于视频的问答、对话和内容创作等应用。

除了具备强大的视觉智能体能力外，Qwen2-VL还具有自主操作手机和机器人等设备的能力。借助复杂推理和决策的能力，它可以集成到手机、机器人等设备中，并根据视觉环境和文字指令进行自动操作。

此外，Qwen2-VL还能够理解图像视频中的多语言文本，包括中文、英文、大多数欧洲语言、日语、韩语、阿拉伯语以及越南语等。

通义千问团队从六个方面评估了这款模型的能力：综合大学题目理解能力、数学能力、文档表格多语言文字图像理解能力、通用场景问答能力、视频理解能力和Agent 能力。

总结起来，Qwen2-VL-72B在大部分指标上都达到了最优水平，甚至超过了GPT-4o和Claude3.5-Sonnet等闭源模型，在文档理解方面尤其突出。唯一与GPT-4o存在差距的是综合大学题目理解方面的成绩。用户可以通过阿里云百炼平台调用该API来使用该模型。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



vivo X100 Ultra(12GB/256GB)

vivo X100 Ultra(12GB/256GB)

3952人评分

80%好评

HUAWEI Mate 60（12GB/256GB）

HUAWEI Mate 60（12GB/256GB）

2189人评分

79%好评

Redmi K70至尊版(12GB/256GB)

Redmi K70至尊版(12GB/256GB)

265人评分

79%好评

荣耀X50（8GB/128GB）

荣耀X50（8GB/128GB）

8635人评分

79%好评

苹果iPhone 16（128GB）

苹果iPhone 16（128GB）

7人评分

44%好评

评论

更多评论

读过此文的还读过

点击加载更多

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具