PDF中的部分文字无法直接复制,面对大量内容时逐字输入耗时费力,尤其是几百页的文档几乎难以完成。我在Linux系统中发现了一些实用的转换工具,经过实际测试,效果非常理想,能够高效提取文字内容,接下来将为大家逐一介绍这些工具的使用方法。
1、 装软件
2、 启动LibreOffice Writer,将之前截取的图片拖入文档中即可。
3、 点击保存为PDF,文件名为text。
4、 找到已保存的text.pdf文件,右键选择打开终端。
5、 在终端执行 pdftoppm text.pdf a,生成的文件为 a-1.ppm。
6、 输入命令:tesseract a-1.ppm a,即可生成a.txt文件。
评论
更多评论