Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

bash 复制代码
# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

相关推荐
千帐灯无此声5 分钟前
Linux 测开:日志分析 + 定位 Bug
linux·c语言·c++·bug
誰能久伴不乏14 分钟前
深入了解 Vim 编辑器:从入门到精通
linux·编辑器·vim
ghie909033 分钟前
在Centos系统上如何有效删除文件和目录的指令汇总
linux·运维·centos
Linux-palpitate1 小时前
Keepalived+LVS实现LNMP网站的高可用部署
linux·运维·服务器·mysql·lvs
潇-xiao1 小时前
进程状态 + 进程优先级切换调度-进程概念(5)
linux·笔记
江公望2 小时前
Linux kernel regcache_cache_only()函数详解
linux
liuyunluoxiao3 小时前
基于生产者消费者模型的线程池【Linux操作系统】
linux
程序员黄老师4 小时前
Ubuntu 24.04上安装 Intelligent Pinyin 中文输入法
linux·运维·ubuntu
HONG_YANG4 小时前
ERPNext 介绍、安装和维护建议
linux
HONG_YANG4 小时前
ERPNext 搭建教程:Linux 一键部署与维护
linux