中关村在线

热点资讯

DeepSeek开源多模态大模型,首创视觉原语推理框架突破空间参照瓶颈

四月三十日,DeepSeek在GitHub平台正式开源其多模态大模型及相关技术报告。报告首次系统阐述了以“视觉原语”为核心的新型推理框架,旨在突破多模态大语言模型在空间参照类任务中长期存在的关键瓶颈。

当前主流的链式思维推理方法主要扎根于语言建模范式,多数研究侧重于增强模型对图像局部细节的感知与识别能力。DeepSeek团队指出,这种路径虽具价值,却未能触及更本质的挑战——即自然语言固有的模糊性与空间布局精确表达之间的结构性落差,亦即所谓“参照鸿沟”。

为弥合这一鸿沟,团队构建了“基于视觉原语的思考”框架,将点、边界框等具有明确空间语义的几何元素,直接纳入模型的推理基本单元。在此框架下,模型可在推理过程中动态生成可定位、可指代的空间锚点,从而将抽象的认知过程稳定映射至图像中的具体物理坐标。

实测结果表明,该模型在多项计数与空间关系推理基准上达到领先水平,整体性能与当前主流前沿模型持平。此前,DeepSeek已面向用户开放具备多模态理解能力的识图功能。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具