Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

bash 复制代码
# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

相关推荐
醇氧6 分钟前
【OpenClaw】常见命令
linux·openclaw
-ONLY-¥13 分钟前
Web基础与Nginx部署全攻略
linux
虾..22 分钟前
Linux 网络基础(1)
linux·网络·智能路由器
野生工程师43 分钟前
【Linux基础】CentOS Stream10详细安装教程
linux·运维·centos
爱装代码的小瓶子1 小时前
【c++与Linux进阶】轻量化进程与虚拟地址和页表
linux·开发语言·c++
liurunlin8881 小时前
Linux系统安装部署Tomcat
linux·运维·tomcat
tingting01191 小时前
linux系统-统计连接数-钉钉告警
linux·数据库·钉钉
尘觉1 小时前
OpenClaw 入门:OpenClaw 环境搭建完整指南(Mac / Windows / Linux)(2026-3月最新版)
linux·windows·macos
xlp666hub1 小时前
进来看看你对进程虚拟内存的了解有多深?
linux·面试
yann_qu1 小时前
Mac通过ssh远程连接wsl
linux·windows·macos·ssh·wsl