Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

bash 复制代码
# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

相关推荐
q***318328 分钟前
在Linux系统上使用nmcli命令配置各种网络(有线、无线、vlan、vxlan、路由、网桥等)
linux·服务器·网络
mljy.33 分钟前
Linux《Socket编程Tcp》
linux
Crazy________41 分钟前
38nginx四层负载均衡配置,和动静分离解析
linux·运维·nginx·负载均衡
YongCheng_Liang1 小时前
ELK 自动化部署脚本解析
linux·运维·elk·jenkins
小白博文1 小时前
MobaXterm调用远程服务器(Linux)图形化界面应用
linux·运维·服务器
不会写代码的里奇1 小时前
VMware Ubuntu 22.04 NAT模式下配置GitHub SSH完整教程(含踩坑实录+报错_成功信息对照)
linux·经验分享·笔记·git·ubuntu·ssh·github
百***67031 小时前
Nodemailer使用教程:在Node.js中发送电子邮件
linux·运维·node.js
ddacrp2 小时前
RHEL_NFS服务器
linux·服务器·网络
码界奇点2 小时前
Linux进程间通信三System V 共享内存完全指南原理系统调用与 C 封装实现
linux·c语言·网络·c++·ux·risc-v
ZHANG13HAO2 小时前
RV1106 通过 4G 网络基于 libdatachannel 实现 WebRTC 实时视频传输”
linux