Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

bash 复制代码
# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

相关推荐
人工智能训练27 分钟前
Docker中容器的备份方法和步骤
linux·运维·人工智能·ubuntu·docker·容器·nvidia
渡我白衣36 分钟前
深入 Linux 内核启动:从按下电源到用户登录的全景解剖
java·linux·运维·服务器·开发语言·c++·人工智能
代码炼金术士42 分钟前
linux的nginx版本升级
linux·运维·nginx
讨厌下雨的天空1 小时前
进程优先级
linux·服务器
大柏怎么被偷了1 小时前
【Linux】版本控制器git
linux·运维·服务器
JiMoKuangXiangQu1 小时前
busybox:启动阶段的静态 IP 配置过程
linux·busybox·静态ip配置
adnyting2 小时前
【Linux日新月异(四)】CentOS 7进程管理深度指南:掌控系统生命线
linux·运维·centos
nassi_2 小时前
GPIO标准库开发
linux
生信大表哥3 小时前
bulk RNA-Seq (4)合并表达矩阵
linux·生信·数信院生信服务器
DeeplyMind4 小时前
虚拟化hypervisor:Xen简介
linux·virtualization·xen