【OCR】 - Tesseract OCR在Windows系统中安装

夜七天2024-01-10 11:57

Tesseract OCR

在Windows环境下安装Tesseract OCR（Optical Character Recognition）通常包括以下几个步骤：

下载Tesseract

访问Tesseract的GitHub发布页面：https://github.com/tesseract-ocr/tesseract/releases
找到适合你操作系统的版本，通常是预编译的二进制文件，例如 tesseract-x.x.x-setup.exe
下载并运行这个安装程序。

配置环境变量

打开系统属性，可以通过右键点击"此电脑"或"我的电脑"，然后选择"属性"来访问。
在打开的窗口中，找到并点击"高级系统设置"。
在"系统属性"窗口中，切换到"高级"选项卡，然后点击"环境变量"按钮。
在"环境变量"窗口中，在"系统变量"部分找到名为 Path
在弹出的窗口中，点击"新建"按钮，然后添加Tesseract的安装路径。如果安装在默认位置，可能是
C:\Program Files\Tesseract-OCR
点击"确定"按钮关闭所有打开的窗口以保存更改。

测试安装

打开命令提示符（CMD），可以通过按下 Win+R键，然后输入cmd并回车来打开。
在命令行中输入以下命令，检查Tesseract是否已经正确安装和配置：

bash 复制代码

tesseract --version

如果一切正常，你应该能看到类似tesseract 5.0.0这样的输出，显示了当前安装的Tesseract版本信息。

安装语言包

如果需要识别的语言不是英语（如简体中文），你需要下载对应的语言数据包。
你可以从Tesseract官方镜像站点或者其他可靠来源下载所需的语言包。例如，简体中文的数据包通常是
chi_sim.traineddata
将下载的语言数据包放在Tesseract的 tessdata

bash 复制代码

C:\Program Files\Tesseract-OCR\tessdata

使用Tesseract

一旦安装完成并配置好环境变量，你就可以使用Tesseract进行文本识别了。一个基本的命令行用法如下：

bash 复制代码

tesseract image_file output_text -l language

其中，image_file是你要识别的图像文件名，

output_text是识别结果要保存的文本文件名，

language是你指定的识别语言（如eng、chi_sim等）。

上一篇：第九届云计算与大数据分析国际会议（ICCCBDA 2024）即将召开！

下一篇：junit单元测试：使用@ParameterizedTest 和 @CsvSource注解简化单元测试方法

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 09AI科技热点日报 | 2026年07月01日 102026 年 AI 大模型 & AI 编程工具实战全总结