【OCR】 - Tesseract OCR在Windows系统中安装

Tesseract OCR

在Windows环境下安装Tesseract OCR(Optical Character Recognition)通常包括以下几个步骤:

下载Tesseract

  1. 访问Tesseract的GitHub发布页面:https://github.com/tesseract-ocr/tesseract/releases
  2. 找到适合你操作系统的版本,通常是预编译的二进制文件,例如 tesseract-x.x.x-setup.exe
  3. 下载并运行这个安装程序。

配置环境变量

  1. 打开系统属性,可以通过右键点击"此电脑"或"我的电脑",然后选择"属性"来访问。
  2. 在打开的窗口中,找到并点击"高级系统设置"。
  3. 在"系统属性"窗口中,切换到"高级"选项卡,然后点击"环境变量"按钮。
  4. 在"环境变量"窗口中,在"系统变量"部分找到名为 Path
  5. 在弹出的窗口中,点击"新建"按钮,然后添加Tesseract的安装路径。如果安装在默认位置,可能是
    C:\Program Files\Tesseract-OCR
  6. 点击"确定"按钮关闭所有打开的窗口以保存更改。

测试安装

  1. 打开命令提示符(CMD),可以通过按下 Win+R键,然后输入cmd并回车来打开。
  2. 在命令行中输入以下命令,检查Tesseract是否已经正确安装和配置:
bash 复制代码
tesseract --version

如果一切正常,你应该能看到类似tesseract 5.0.0这样的输出,显示了当前安装的Tesseract版本信息。

安装语言包

  1. 如果需要识别的语言不是英语(如简体中文),你需要下载对应的语言数据包。
  2. 你可以从Tesseract官方镜像站点或者其他可靠来源下载所需的语言包。例如,简体中文的数据包通常是
    chi_sim.traineddata
  3. 将下载的语言数据包放在Tesseract的 tessdata
bash 复制代码
C:\Program Files\Tesseract-OCR\tessdata

使用Tesseract

一旦安装完成并配置好环境变量,你就可以使用Tesseract进行文本识别了。一个基本的命令行用法如下:

bash 复制代码
tesseract image_file output_text -l language

其中,image_file是你要识别的图像文件名,

output_text是识别结果要保存的文本文件名,

language是你指定的识别语言(如eng、chi_sim等)。

相关推荐
马哥python说17 分钟前
【效率软件】抖音转换工具:主页链接和抖音号一键批量互转
爬虫·python
江山如画,佳人北望23 分钟前
pytorch常用函数
人工智能·pytorch·python
这里有鱼汤37 分钟前
首个开源金融平台,一站式数据终端 + AI 代理,量化研究者的利器,速来白嫖
后端·python
这里有鱼汤39 分钟前
Python量化实战:如何用Python实现查找相似K线,附源码,建议收藏
后端·python
小阿鑫43 分钟前
使用 Kiro AI IDE 3小时实现全栈应用Admin系统
前端·后端·python·admin·kiro·next admin·fastapi admin
lemoncat844 分钟前
在Windows下读写Linux EXT文件系统文件
linux·运维·windows
Blossom.1181 小时前
基于深度学习的医学图像分析:使用YOLOv5实现细胞检测
人工智能·python·深度学习·yolo·机器学习·分类·迁移学习
DogDaoDao1 小时前
GitHub开源项目Zerox:AI驱动的OCR革命
人工智能·深度学习·开源·github·ocr·图像识别·zerox
程序视点1 小时前
望言OCR视频字幕提取2025终极评测:免费版VS专业版提全方位对比(含免费下载)
ocr·视频字幕提取软件·望言ocr·硬字幕识别工具·开源ocr工具·字幕提取方法·视频转文字软件
啊阿狸不会拉杆1 小时前
《Java 程序设计》第 8 章 - Java 常用核心类详解
java·开发语言·python·算法·intellij-idea