Linux安装Tesseract-OCR（操作系统CentOS）

Linux安装Tesseract-OCR

第一步，安装依赖
第二步，下载安装包
第三步，安装leptonica库
第四步，安装tesseract
第五步，添加语言包
第六步，测试

第一步，安装依赖

powershell 复制代码

sudo yum install libpng-devel
rpm -qa | grep libpng-devel

powershell 复制代码

sudo yum install libjpeg-devel
rpm -qa | grep libjpeg-devel

powershell 复制代码

sudo yum install tiff-devel
rpm -qa | grep tiff-devel

powershell 复制代码

sudo yum install libtool-ltdl
rpm -qa | grep libtool-ltdl

powershell 复制代码

sudo yum install gcc
gcc --version

powershell 复制代码

sudo yum install g++
g++ --version

powershell 复制代码

sudo yum install automake
automake --version

第二步，下载安装包

leptonica-1.78.0.tar.gz

下载地址 http://www.leptonica.org/source/leptonica-1.78.0.tar.gz

tesseract-5.2.0.tar.gz

下载地址 https://codeload.github.com/tesseract-ocr/tesseract/tar.gz/refs/tags/5.2.0

第三步，安装leptonica库

powershell 复制代码

#1、首先，使用tar命令解压leptonica-1.78.0.tar.gz文件。这个命令会将压缩包中的所有文件和目录提取到当前目录下
tar -xzvf leptonica-1.78.0.tar.gz

#2、然后，进入解压后的目录leptonica-1.78.0
cd leptonica-1.78.0

#3、./autogen.sh是一个用于生成Makefile文件的脚本。它会根据系统的环境和配置信息，自动生成适合当前环境的Makefile文件，以便进行编译和安装。通常在源代码包中提供该脚本，用户需要先运行该脚本，然后再执行make命令进行编译和安装。
./autogen.sh
【如果执行autogen.sh脚本提示libtoolize: 未找到命令，执行sudo yum install libtool】


#4、接下来，执行configure命令进行配置
./configure --prefix=/usr/local/leptonica

#5、配置完成后，执行make命令进行编译
make

#6、最后，使用sudo make install命令进行安装。这个命令需要管理员权限，因为安装软件通常需要修改系统文件。
sudo make install

接下来配置 leptonica 环境变量
#1、打开 /etc/profile
vim /etc/profile

#2、追加以下字段
PKG_CONFIG_PATH=$PKG_CONFIG_PATH:/usr/local/leptonica/lib/pkgconfig
export PKG_CONFIG_PATH
CPLUS_INCLUDE_PATH=$CPLUS_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
export CPLUS_INCLUDE_PATH
C_INCLUDE_PATH=$C_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
export C_INCLUDE_PATH
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/leptonica/lib
export LD_LIBRARY_PATH
LIBRARY_PATH=$LIBRARY_PATH:/usr/local/leptonica/lib
export LIBRARY_PATH
LIBLEPT_HEADERSDIR=/usr/local/leptonica/include/leptonica
export LIBLEPT_HEADERSDIR

#3、应用配置
source /etc/profile

第四步，安装tesseract

powershell 复制代码

#1、首先，使用tar命令解压tesseract-5.2.0.tar.gz文件。这个命令会将压缩包中的所有文件和目录提取到当前目录下。
tar -xzvf tesseract-5.2.0.tar.gz


#2、然后，进入解压后的目录tesseract-5.2.0.tar.gz
cd tesseract-5.2.0


#3、./autogen.sh是一个用于生成Makefile文件的脚本。它会根据系统的环境和配置信息，自动生成适合当前环境的Makefile文件，以便进行编译和安装。通常在源代码包中提供该脚本，用户需要先运行该脚本，然后再执行make命令进行编译和安装。
./autogen.sh

#4、执行configure命令进行配置（这步可能会提示报错，看看自己缺少什么依赖就安装什么依赖）
./configure --prefix=/usr/local/tesseract

#5、配置完成后，执行make命令进行编译
配置完成后，执行make命令进行编译
make

#6.最后，使用sudo make install命令进行安装。这个命令需要管理员权限，因为安装软件通常需要修改系统文件
sudo make install

接下来配置 tesseract 环境变量
#1、打开 /etc/profile
vim /etc/profile

#2、追加以下字段
PATH=$PATH:/usr/local/tesseract/bin
export PATH
export TESSDATA_PREFIX=/usr/local/share/tessdata
#export PATH=$PATH:$TESSDATA_PREFIX


#3、应用配置
source /etc/profile

#4、测试一下
tesseract -v

第五步，添加语言包

powershell 复制代码

#1、如果你不想每次都指定语言包加载路径的话...你需要： 将软件安装目录下的 tessdata目录 拷贝到 /usr/local/share/tessdata目录

#2、下载 tesseract 语言包（从你win系统里面的C:\Program Files\Tesseract-OCR\tessdata里面的语言包拷贝到Linux服务器上/usr/local/share/tessdata目录就可以了，因为这样操作是最安全的，不然会出现奇奇怪怪的问题等待你处理，因为你下载的语言包不一定是正确的。）

ps:前提是你的win安装了tesseract，并且在安装的时候选择了安装语言包

第六步，测试

powershell 复制代码

识别图片命令
tesseract 567.png outputteee -l chi_sim+eng

参数说明
tesseract = 命令
567.png=当前目录文件
outputteee=会在当前目录生成outputteee.txt文件
-l chi_sim+eng=中文+英文，如果是单个语言-l chi_sim就可以了