在amazon linux 2023上面源码手动安装tesseract5.5.1

问题

因为amazon linux 2023自带的源没有tesseract5库,所以需要在amazon linux 2023上面手动源码安装tesseract5.5.1。

源码编译依赖库安装

bash 复制代码
sudo dnf update
# autoconf库
sudo dnf install -y gcc gcc-c++ make autoconf automake libtool
# 图像库
sudo dnf install -y libjpeg-devel libpng-devel libtiff-devel zlib-devel

安装Leptonica 1.86.0

bash 复制代码
# 下载安装包
wget http://www.leptonica.org/source/leptonica-1.86.0.tar.gz
# 解压
tar -zxvf leptonica-1.86.0.tar.gz
cd leptonica-1.86.0
# 配置,编译和安装
./configure --prefix=/usr/local
make
sudo make install
# 在进行下一步之前,一定要配置这个PKG_CONFIG_PATH环境,告诉下一步构建配置的leptonica配置文件位置(lept.pc)
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig/

安装Tesseract 5.5.1

bash 复制代码
# 下载
wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/5.5.1.tar.gz -O tesseract-5.5.1.tar.gz
# 解压
tar -zxvf tesseract-5.5.1.tar.gz
cd tesseract-5.5.1
# 配置,编译和安装
./autogen.sh
./configure --prefix=/usr/local
make
sudo make install
sudo ldconfig

安装Tesseract语音包

bash 复制代码
# 创建语言包目录 (如果不存在)
sudo mkdir -p /usr/local/share/tessdata

# 下载英文和简体中文语言包
cd /usr/local/share/tessdata
sudo wget https://github.com/tesseract-ocr/tessdata/raw/main/eng.traineddata
sudo wget https://github.com/tesseract-ocr/tessdata/raw/main/chi_sim.traineddata

测试

测试图片文件:

bash 复制代码
tesseract 0.png output -l chi_sim+eng --psm 3 --oem 3
cat output.txt

效果如下图:

bash 复制代码
[ssm-user@ip-172-32-131-194 ~]$ cat output.txt
15:12 ull 5G @m)
< 详 情

Y 憨 憨
M #2025 x x x x x x x x x

XXXXXXXXXXXXXXXXxxdddd

1 分 钟 前 & T -

发 表 评 论 : © K

参考

相关推荐
草莓熊Lotso6 分钟前
【Linux 线程进阶】进程 vs 线程资源划分 + 线程控制全详解
java·linux·运维·服务器·数据库·c++·mysql
ShineWinsu12 分钟前
对于Linux:文件操作以及文件IO的解析
linux·c++·面试·笔试·io·shell·文件操作
ZKNOW甄知科技12 分钟前
数智同行:甄知科技2026年Q1季度回顾
运维·服务器·人工智能·科技·程序人生·安全·自动化
-SGlow-12 分钟前
Linux相关概念和易错知识点(52)(基于System V的信号量和消息队列)
linux·运维·服务器
jikemaoshiyanshi13 分钟前
B2B企业GEO服务商哪家好?深度解析径硕科技(JINGdigital)及其JINGEO产品为何是首选
大数据·运维·人工智能·科技
江畔何人初14 分钟前
TCP的三次握手与四次挥手
linux·服务器·网络·网络协议·tcp/ip
跨境麦香鱼15 分钟前
Playwright vs Puppeteer:2026自动化任务与爬虫工具如何选?
运维·爬虫·自动化
洒家肉山大魔王18 分钟前
PKI/CA X.509证书的基础应用与解读
服务器·https·密码学·数字证书
xingyuzhisuan25 分钟前
Blender渲染加速:4090服务器OptiX后端性能提升50%
运维·服务器·性能优化·gpu算力
Trouvaille ~28 分钟前
【MySQL篇】数据库操作:从创建到管理
linux·数据库·mysql·oracle·xshell·ddl