Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

bash 复制代码
# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

相关推荐
geek_super34 分钟前
Linux命令学习--备份压缩--ar命令
linux·学习·ar
我是唐青枫10 小时前
Linux ar 命令使用详解
linux·运维·服务器
mljy.10 小时前
Linux《进程概念(上)》
linux
IEVEl10 小时前
Centos7 开放端口号
linux·网络·centos
我要升天!11 小时前
Linux中《环境变量》详细介绍
linux·运维·chrome
MobiCetus11 小时前
有关pip与conda的介绍
linux·windows·python·ubuntu·金融·conda·pip
weixin_4284984912 小时前
Linux系统perf命令使用介绍,如何用此命令进行程序热点诊断和性能优化
linux·运维·性能优化
lemon31062414 小时前
dockerfile制作镜像
linux·运维·服务器·学习
易保山15 小时前
MIT6.S081 - Lab5 Lazy(延迟分配)
linux·操作系统·c
想躺在地上晒成地瓜干16 小时前
树莓派超全系列文档--(14)无需交互使用raspi-config工具其一
linux·树莓派·raspberrypi·树莓派教程