中关村在线

热点资讯

通义千问Qwen2-VL最新亮相 综合大学题目理解成绩优异

通义千问最新推出了第二代视觉语言模型Qwen2-VL。这款旗舰型号的Qwen2-VL-72B API已经登陆了阿里云百炼平台。

根据调查,Qwen2-VL在多个权威测评中刷新了多模态模型的最佳成绩,部分指标甚至超过了GPT-4o和Claude3.5-Sonnet等闭源模型。

仅一年时间,该模型下载量就突破了1000万次。目前,多模态模型在手机、车端等各种视觉识别场景中的应用正在加速推进,开发者和应用企业也非常关注Qwen-VL的更新迭代。

与上一代模型相比,Qwen2-VL的基础性能得到了全面提升。它能够理解不同分辨率和不同长宽比的图片,在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试中表现出全球领先的成绩。此外,它还能够理解长达20分钟以上的视频,并支持基于视频的问答、对话和内容创作等应用。

除了具备强大的视觉智能体能力外,Qwen2-VL还具有自主操作手机和机器人等设备的能力。借助复杂推理和决策的能力,它可以集成到手机、机器人等设备中,并根据视觉环境和文字指令进行自动操作。

此外,Qwen2-VL还能够理解图像视频中的多语言文本,包括中文、英文、大多数欧洲语言、日语、韩语、阿拉伯语以及越南语等。

通义千问团队从六个方面评估了这款模型的能力:综合大学题目理解能力、数学能力、文档表格多语言文字图像理解能力、通用场景问答能力、视频理解能力和Agent 能力。

总结起来,Qwen2-VL-72B在大部分指标上都达到了最优水平,甚至超过了GPT-4o和Claude3.5-Sonnet等闭源模型,在文档理解方面尤其突出。唯一与GPT-4o存在差距的是综合大学题目理解方面的成绩。用户可以通过阿里云百炼平台调用该API来使用该模型。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多
说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具