Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

bash 复制代码
# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

相关推荐
流浪00115 分钟前
Linux篇(十):取代命令行 GDB?CGDB 可视化调试全解析
linux·运维·服务器
键盘上的猫头鹰19 分钟前
【Linux 基础教程(五)】磁盘管理、挂载硬盘、系统状态检测与软件安装(RPM/YUM)
linux·运维·服务器
杨某不才19 分钟前
Linux服务器离线安装docker
linux·服务器·docker
feng_you_ying_li23 分钟前
Linux 之线程封装,线程的同步与互斥,互斥锁的介绍
linux·c++·算法
feng_you_ying_li30 分钟前
Linux 线程之 pthread 库的介绍和每个线程独立空间的说明
linux·运维
来点抹茶吗30 分钟前
U-Boot、内核移植与根文件系统构建(BeagleBone Green Gateway&AM335X)
linux·嵌入式硬件·ubuntu·debian
Linux运维老纪32 分钟前
nginx 打造高性能 API 网关(‌Building a High-Performance API Gateway with Nginx)
linux·运维·mysql·nginx·云计算·运维开发
YXXY3139 小时前
线程的介绍(四)
linux
kTR2hD1qb11 小时前
从 Responses API 到 Chat Completions:一个模型网关的设计复盘
linux·前端
姓刘的哦11 小时前
大模型祛魅
linux