中关村在线

热点资讯

DeepSeek发布OCR 2:首创视觉因果流架构,识别准确率显著提升

2026年1月27日,DeepSeek正式推出新一代文档识别模型DeepSeek-OCR 2。该模型在前代基础上,通过视觉编码器结构的深度优化,显著提升了文字识别的准确性与鲁棒性。

本次升级的核心在于全新设计的视觉编码器DeepEncoder V2。该架构摒弃了传统按固定网格顺序逐块处理图像的方式,转而依据图像内容的语义逻辑,动态决定视觉信息的处理优先级。这种“视觉因果流”机制模拟人类阅读时的跳跃式理解过程,使模型在执行识别任务前,先对画面中的图文元素进行智能排序与组织。

技术实现上,研发团队以类语言模型结构替代原有的CLIP风格视觉编码模块,并在编码器内部嵌入可学习的“因果流查询token”。该设计融合两种注意力机制:一方面,原始图像特征通过双向注意力实现全局上下文建模;另一方面,查询token借助因果注意力逐步构建语义依赖关系,从而完成对视觉单元的动态重排。最终,仅经语义排序后的查询token被送入基于混合专家架构的语言模型解码器,完成高精度文本识别。整个流程在计算资源消耗与上一代模型基本持平的前提下,实现了识别能力的实质性跃升。

基准测试结果表明,在OmniDocBench v1.5评测中,DeepSeek-OCR 2综合得分为91.09%,较前代提升3.73个百分点;阅读顺序准确率同步提高,编辑距离由0.085下降至0.057。在真实场景应用中,该模型亦展现出更强的适应性:在线用户上传的日志类图像识别重复率从6.25%降至4.17%,批量处理PDF文档的重复率由3.69%降至2.88%。尤其在布局复杂、格式多变的文档中,其结构解析能力与系统运行稳定性均获得明显增强。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多
说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具