中关村在线

热点资讯

DeepMMSearch-R1发布:精准定位助力多模态AI突破视觉检索瓶颈

2026年1月15日,一项关于人工智能模型的重要研究成果被披露。该研究提出了一种名为DeepMMSearch-R1的新型AI系统,旨在提升多模态大模型在复杂视觉环境中的信息检索能力,尤其针对当前AI在处理图文混合任务时常出现的理解偏差与细节遗漏问题。

在面对诸如“图像左上角那只鸟的最高飞行速度是多少”这类需要精确定位与跨模态推理的问题时,传统模型往往因无法准确聚焦关键区域而给出笼统甚至错误的回答。为解决这一难题,DeepMMSearch-R1引入了一项创新机制——视觉定位工具。该工具可主动对输入图像进行局部裁剪,排除无关背景干扰,优先识别并提取微小或特定目标对象,再结合外部网络资源进行验证性检索,从而增强回答的事实准确性。

为避免过度使用裁剪功能导致计算资源浪费,研究团队设计了一套高效的训练策略,结合监督微调与在线强化学习方法。前者用于规范模型行为,确保其仅在必要时才触发裁剪操作;后者则优化了工具调用的决策过程,提升整体响应效率。

实验结果表明,DeepMMSearch-R1在涉及精确图文匹配与常识事实核查的任务中,表现优于现有的检索增强生成架构以及依赖提示工程的搜索代理系统,有效缓解了AI在实际应用中“跳过步骤”或“模糊应对”的倾向。该成果为多模态智能系统在真实场景下的可靠应用提供了新的技术路径。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具