Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

bash 复制代码
# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

相关推荐
8***84821 小时前
如何在Linux中找到MySQL的安装目录
linux·运维·mysql
9***J6281 小时前
Linux下PostgreSQL-12.0安装部署详细步骤
linux·运维·postgresql
W***83202 小时前
如何在 Ubuntu 22.04 上安装 MySQL
linux·mysql·ubuntu
凌寒112 小时前
Linux(Debain)安装Redis、数据迁移
linux·运维·服务器·redis
7***q6082 小时前
在linux(Centos)中Mysql的端口修改保姆级教程
linux·mysql·centos
用户476022022783 小时前
机器配置免密切root
linux
zzzsde4 小时前
【Linux】基础开发工具(2):vim补充说明&&gcc/g++编译器
linux·运维·服务器
q***65694 小时前
使用Canal将MySQL数据同步到ES(Linux)
linux·mysql·elasticsearch
2301_807583234 小时前
了解python,并编写第一个程序,常见的bug
linux·python
杨德杰5 小时前
Ubuntu设置VNC远程桌面
linux·运维·ubuntu