百度近日在 Hugging Face 平台上推出了其最新文字识别解决方案 PP-OCRv5。该模型于 9 月 10 日正式发布,旨在克服当前大型视觉语言模型(VLMs)在文本识别任务中的若干限制,提供一种更加高效、准确且轻量的专用 OCR 解决方案。
PP-OCRv5 沿用了模块化、两阶段的设计思路,专注于实现高速度与高精度的文本检测与识别。通过这种方式,该模型有效解决了大型通用视觉语言模型在文本定位及边界框精度方面的不足。
该模型的主要特点包括:
高效性
PP-OCRv5 参数总量仅为 0.07B,具有良好的轻量化特性,适用于 CPU 和边缘设备部署。其移动版本在英特尔 Xeon Gold 6271C CPU 上的处理速度每秒可超过 370 个字符。
高性能
在 OCR 相关基准测试中,PP-OCRv5 表现出优于当前主流通用视觉语言模型的能力,这些模型包括 Gemini 2.5 Pro、Qwen2.5-VL 和 GPT-4o。PP-OCRv5 可准确识别手写与印刷体的中英文以及拼音文本。
精准定位
PP-OCRv5 能够输出精确的文本行边界框坐标,满足结构化数据提取与内容分析对定位精度的高要求。
多语言支持
该模型覆盖了简体中文、繁体中文、英文、日文和拼音五类文本形式,支持超过 40 种语言的识别。
PP-OCRv5 主要由四个关键模块组成:
- 图像预处理:对图像进行旋转校正与畸变处理,确保输入标准化;
- 文本检测:定位图像中文本行的具体位置;
- 文本方向判断:识别检测到文本的朝向,确保文本正确对齐;
- 文本识别:将文本行解码为对应的字符字符串。
PP-OCRv5 已开放下载,感兴趣的开发者可前往 Hugging Face 获取相关模型文件。

评论
更多评论