阿里通义千问推Qwen2-VL：开源2B/7B模型，处理任意分辨率图像无需分割成块

拿铁不加冰

原创

2024-08-30

通义千问团队今天对 Qwen-VL（视觉语言、Vision Language）模型进行了更新，推出了新一代的Qwen2-VL。与之前的Qwen-VL相比，Qwen2-VL在架构上有了关键改进，实现了动态分辨率支持。这意味着该模型可以处理任意分辨率的图像而无需将其分割成块，并且能够确保输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知，从而使模型能够处理任何清晰度或大小的图像。

另一个重要的改进是引入了Multimodal Rotary Position Embedding（M-ROPE）。通过将original rotary embedding分解为时间、空间（高度和宽度）信息三个部分，M-ROPE使得Large Language Models能够同时捕获和集成1D文本、2D视觉和3D视频位置信息。这使大型语言模型不仅可以充当多模态处理器还可以用作推理器。

在7亿规模下，Qwen2-VL-7B保留了对图像、多个图像和视频输入的支持，并提供具有竞争力性能的成本效益较大的模型大小。

针对潜在移动设备部署需求优化设计的小型模型Qwen2-VL-2B，在参数量只有2亿时，在图像理解、视频理解和多语言理解方面都表现出色。

如果需要使用该模型，请参考链接如下：

Qwen2-VL-2B-Instruct：https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Instruct：https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



vivo S60（12GB/256GB）

vivo S60（12GB/256GB）

1人评分

97%好评

华为畅享90 Pro Max 128GB

华为畅享90 Pro Max 128GB

179人评分

80%好评

荣耀600 Pro(12GB/256GB)

荣耀600 Pro(12GB/256GB)

OPPO Reno16(12GB/256GB)

OPPO Reno16(12GB/256GB)

苹果iPhone 17 Pro Max（256GB）

苹果iPhone 17 Pro Max（256GB）

534人评分

80%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具