Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

bash 复制代码
# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

相关推荐
2401_831501731 小时前
Linux之shell脚本篇(四)
linux·运维·服务器
XF小冯7 小时前
Drippingblues靶机通关教程
linux·运维·网络
火龙kess11 小时前
Centos-Stream 10 安装教程(2025版图文教程)
linux·运维·centos
菜鸟也会Fly14 小时前
【/usr/bin/env: “bash\r”: 没有那个文件或目录】问题解决
linux·bash
程序员黄老师15 小时前
Linux tail 命令详解
linux·运维
我怎么又饿了呀15 小时前
Windows&Linux系统 安装 CUDA 和 cuDNN
linux·运维·windows
慌ZHANG17 小时前
云原生时代的 Linux:容器、虚拟化与分布式的基石
linux·云原生
子洋19 小时前
OrbStack 安装 Ubuntu 并开启 SSH 与 Root 登陆
linux·前端·ubuntu
小立爱学习20 小时前
Linux 内存管理之page folios
linux·c语言
某某20 小时前
linux安装mysql8.0,二进制码安装
linux·运维·服务器