2026年1月27日,DeepSeek正式推出新一代文档识别模型DeepSeek-OCR 2。该模型在前代基础上,通过视觉编码器结构的深度优化,显著提升了文字识别的准确性与鲁棒性。
本次升级的核心在于全新设计的视觉编码器DeepEncoder V2。该架构摒弃了传统按固定网格顺序逐块处理图像的方式,转而依据图像内容的语义逻辑,动态决定视觉信息的处理优先级。这种“视觉因果流”机制模拟人类阅读时的跳跃式理解过程,使模型在执行识别任务前,先对画面中的图文元素进行智能排序与组织。
技术实现上,研发团队以类语言模型结构替代原有的CLIP风格视觉编码模块,并在编码器内部嵌入可学习的“因果流查询token”。该设计融合两种注意力机制:一方面,原始图像特征通过双向注意力实现全局上下文建模;另一方面,查询token借助因果注意力逐步构建语义依赖关系,从而完成对视觉单元的动态重排。最终,仅经语义排序后的查询token被送入基于混合专家架构的语言模型解码器,完成高精度文本识别。整个流程在计算资源消耗与上一代模型基本持平的前提下,实现了识别能力的实质性跃升。
基准测试结果表明,在OmniDocBench v1.5评测中,DeepSeek-OCR 2综合得分为91.09%,较前代提升3.73个百分点;阅读顺序准确率同步提高,编辑距离由0.085下降至0.057。在真实场景应用中,该模型亦展现出更强的适应性:在线用户上传的日志类图像识别重复率从6.25%降至4.17%,批量处理PDF文档的重复率由3.69%降至2.88%。尤其在布局复杂、格式多变的文档中,其结构解析能力与系统运行稳定性均获得明显增强。

评论
更多评论