Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

bash 复制代码
# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

相关推荐
帅大大的架构之路2 分钟前
Could not resolve host: mirrorlist.centos.org
linux·运维·centos
xuehaowang3 分钟前
Ubuntu20.04中EasyConnect启动报错
linux·运维·服务器
凉秋girl1 小时前
JVM vs JDK vs JRE
linux·运维·服务器
pumpkin845141 小时前
Windows上使用VSCode开发linux C++程序
linux·windows·vscode
Dusk_橙子2 小时前
在Linux中,zabbix如何监控脑裂?
linux·运维·zabbix
小林熬夜学编程2 小时前
【Linux网络编程】第二十一弹---深入解析I/O多路转接技术之poll函数:优势、缺陷与实战代码
linux·运维·服务器·开发语言·网络·c++
vvw&2 小时前
如何在 Ubuntu 22.04 上安装和配置邮件服务器教程
linux·运维·服务器·数据库·mysql·ubuntu·邮件服务器
Antonio9152 小时前
【Linux】上传、下载、压缩、解压
linux·运维·服务器
Antonio9152 小时前
【Linux】IP地址、主机名、网络传输、进程管理、主机状态
linux·网络·tcp/ip
Rverdoser2 小时前
Linux菜鸟级常用的基本指令和基础知识
linux·运维·服务器