【OCR】 - Tesseract OCR在mac系统中安装

夜七天2024-01-10 12:00

Tesseract OCR

在Mac环境下安装Tesseract OCR（Optical Character Recognition）通常可以通过Homebrew包管理器进行。以下是安装步骤：

安装Homebrew

如果你还没有安装Homebrew，请访问 https://brew.sh/ 并按照页面上的说明安装。

使用Homebrew安装Tesseract

bash 复制代码

brew install tesseract

这将下载并安装最新版本的Tesseract，同时可能还会安装一些依赖项。

安装语言包

要在Mac上下载Tesseract的简体中文语言数据包（chi_sim.traineddata），你可以按照以下步骤进行操作：

下载语言数据包

访问Tesseract官方镜像站点之一：https://github.com/tesseract-ocr/tessdata_fast 或 https://github.com/tesseract-ocr/tessdata_best
在GitHub页面上，找到并点击"Clone or download"按钮，然后选择"Download ZIP"来下载整个项目。
解压缩下载的ZIP文件，你会看到一个名为 tessdata

安装语言数据包

1.找到Tesseract在Mac上的安装位置。通常情况下，如果你使用Homebrew安装，它可能位于
/usr/local/Cellar/tesseract/版本号/share/tessdata
2.将解压后的
tessdata
chi_sim.traineddata
tessdata

验证安装

1.打开终端（Terminal）应用程序。

2.输入以下命令以验证是否已经正确安装了Tesseract和简体中文语言数据包：

bash 复制代码

tesseract --version

这将显示你当前安装的Tesseract版本信息。

3.检查可用的语言列表：

bash 复制代码

tesseract --list-langs

如果一切正常，你应该能在输出列表中看到chi_sim。

现在，你就可以使用Tesseract识别简体中文图像了。