Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

bash 复制代码
# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

相关推荐
MyY_DO15 分钟前
通讯录实现(Linux+Cpp)
linux·运维·服务器
独行soc16 分钟前
2025年渗透测试面试题总结-腾讯[实习]玄武实验室-安全工程师(题目+回答)
linux·安全·web安全·面试·职场和发展·渗透测试·区块链
自动驾驶小卡2 小时前
ubuntu 常用操作指令(与域控制器交互相关)
linux·ubuntu·操作指令
意如流水任东西2 小时前
Linux开发工具(apt,vim,gcc)
linux·服务器
XMAIPC_Robot2 小时前
基于RK3568的多网多串电力能源1U机箱解决方案,支持B码,4G等
linux·fpga开发·能源·边缘计算
程序猿小D2 小时前
第14节 Node.js 全局对象
linux·前端·npm·node.js·编辑器·vim
Antonio9153 小时前
【Linux】 Linux 进程控制
linux·运维·服务器
thinkMoreAndDoMore4 小时前
linux驱动开发(1)-内核模块
linux·运维·驱动开发
darin_ฅ( ̳• ◡ • ̳)ฅ14 小时前
Linux环境-通过命令查看zookeeper注册的服务
linux·zookeeper
Chuncheng's blog4 小时前
CentOS 7 如何pip3安装pyaudio?
linux·运维·python·centos