Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

bash 复制代码
# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

相关推荐
shizhan_cloud几秒前
收集系统资源使用情况
linux·运维
运维_攻城狮21 分钟前
openeuler-24.3欧拉系统mysql开机自启报错
linux·mysql
shizhan_cloud1 小时前
Linux 进程调度管理
linux·运维
JiMoKuangXiangQu1 小时前
Linux 网络:邻居子系统
linux·网络·邻居子系统
孙同学_1 小时前
【Linux篇】信号机制深度剖析:从信号捕捉到SIGCHLD信号处理
linux·信号处理
玖剹1 小时前
多线程编程:从日志到单例模式全解析
java·linux·c语言·c++·ubuntu·单例模式·策略模式
Monody_R1 小时前
rhce作业
linux·服务器·apache
dessler1 小时前
MYSQL-外键(Foreign Key)
linux·运维·mysql
随机昵称_1234561 小时前
Linux如何从docker hub下载arm镜像
java·linux·arm开发·docker
q***09801 小时前
在linux(Centos)中Mysql的端口修改保姆级教程
linux·mysql·centos