Tess4J：基于 Java 的 OCR 解决方案

在现代软件开发中，图像识别与文本提取已成为许多应用场景中的关键环节。OCR（Optical Character Recognition）技术使得从图像中提取文字成为可能。Tess4J 是一个基于 Java 的 OCR 开发库，它封装了 Google Tesseract OCR 引擎的本地调用接口，使得 Java 开发者能够轻松地在项目中集成图像文字识别功能。

Tess4J 的核心优势在于其对原生 Tesseract 库的封装，不仅简化了 API 调用流程，还支持跨平台使用（Windows、Linux、MacOS 等），是 Java 图像识别领域的重要工具之一。

1. OCR 介绍

OCR（Optical Character Recognition，光学字符识别）是一种将图像中的文字内容转换为可编辑、可搜索的文本格式的技术。它广泛应用于从扫描文档、照片、PDF 文件等图像中提取文字信息，实现自动化数据处理和分析。其核心是通过图像处理与模式识别算法来检测图像中的字符区域，并将其识别为计算机可理解的文本格式（如 ASCII 或 Unicode）。其主要流程包括：

图像预处理：去噪、二值化、灰度处理等，提高识别准确性。
文字区域检测：定位图像中包含文字的区域。
字符分割：将连在一起的文字或单词拆分为单个字符。
字符识别：使用机器学习模型或模板匹配技术识别每个字符。
后处理与输出：优化识别结果并输出为文本格式。

常见的 OCR 工具与服务：

|---------------------------------|-------------------------------|-----------------------------------|----------|----------------------------|
| 工具/服务名称 | 平台/语言支持 | 支持语言 | 是否付费 | 特点说明 |
| Tesseract OCR | 跨平台（C/C++），支持 Java（Tess4J）等封装 | 英文为主，支持几十种语言（需加载对应 tessdata 文件） | 否 | 开源免费，适合本地部署，精度中等 |
| Google Vision API | 云端 REST API | 多语言支持：英文、中文、日文、韩文、法语等（共约 50+ 种语言） | 是 | 高精度识别，支持表格、手写体、复杂排版，需网络连接 |
| 百度 OCR | 云端 API / SDK | 中文、英文、数字、车牌、身份证、护照等特定场景 | 部分免费 | 中文识别强，适合国内应用场景，有免费额度限制 |
| ABBYY FineReader | Windows / macOS | 支持 190+ 种语言 | 是 | 商业软件，识别准确率高，界面友好，价格较高 |
| Microsoft Azure Computer Vision | 云端 API | 英文、中文、西班牙语、法语、德语、日语等主流语言 | 是 | 支持多语言和表格识别，集成于 Azure 生态 |
| Amazon Textract | AWS 云端服务 | 英文、中文、西班牙语等 | 是 | 提取文档中的文本、表格、表单结构，适合企业级文档处理 |
| OpenCV + 深度学习模型 | 自定义开发（Python、Java 等） | 取决于训练模型（可定制化） | 否 | 灵活但开发门槛高，适合有 AI 能力的团队 |
| MyScript | Web / SDK | 英文、中文、日文、阿拉伯语等 | 是 | 手写识别能力强，适合教育、笔记类应用 |
| PaddleOCR（百度飞桨） | Python / C++ / Java | 支持中英文、数字、符号、多种字体 | 否 | 开源项目，轻量级，适合本地部署或自定义训练 |

2. 简单验证码识别（无干扰项）使用步骤

1. 添加依赖

XML 复制代码

<dependency>
  <groupId>net.java.dev.jna</groupId>
  <artifactId>jna</artifactId>
  <version>4.2.1</version>
</dependency>
<dependency>
  <groupId>net.sourceforge.tess4j</groupId>
  <artifactId>tess4j</artifactId>
  <version>4.5.1</version>
</dependency>

2. 下载 Tesseract 数据

下载地址：https://github.com/tesseract-ocr/tessdata

这里以放在 resources/tessdata 目录为例：

常见语言包列表及用途说明：

参考文档：Traineddata Files for Version 4.00 + | tessdoc

|---------------- | 文件名 | afr.traineddata | amh.traineddata | ara.traineddata | asm.traineddata | aze.traineddata | aze_cyrl.traineddata | bel.traineddata | ben.traineddata | bod.traineddata | bos.traineddata | bre.traineddata | bul.traineddata | cat.traineddata | ceb.traineddata | ces.traineddata | chi_sim.traineddata | chi_sim_vert.traineddata | chi_tra.traineddata | chi_tra_vert.traineddata | chr.traineddata | cym.traineddata | dan.traineddata | dan_frak.traineddata | deu.traineddata | deu_frak.traineddata | div.traineddata | dzo.traineddata | ell.traineddata | eng.traineddata | enm.traineddata | epo.traineddata | est.traineddata | eus.traineddata | fas.traineddata | fao.traineddata | fra.traineddata | frm.traineddata | fry.traineddata | gla.traineddata | gle.traineddata | glg.traineddata | grc.traineddata | guj.traineddata | hat.traineddata | heb.traineddata | hin.traineddata | hrv.traineddata | hun.traineddata | hye.traineddata | iku.traineddata | ind.traineddata | isl.traineddata | ita.traineddata | ita_old.traineddata | jav.traineddata | jpn.traineddata | jpn_vert.traineddata | kan.traineddata | kas.traineddata | kat.traineddata | kat_old.traineddata | kaz.traineddata | khm.traineddata | kir.traineddata | kmr.traineddata | kor.traineddata | kor_vert.traineddata | lao.traineddata | lat.traineddata | lav.traineddata | lit.traineddata | ltz.traineddata | mal.traineddata | mar.traineddata | mkd.traineddata | mlt.traineddata | mon.traineddata | mri.traineddata | msa.traineddata | mya.traineddata | nep.traineddata | nld.traineddata | nor.traineddata | oci.traineddata | ori.traineddata | osd.traineddata | pan.traineddata | pap.traineddata | pol.traineddata | por.traineddata | pus.traineddata | que.traineddata | ron.traineddata | rus.traineddata | san.traineddata | sin.traineddata | slk.traineddata | slv.traineddata | snd.traineddata | spa.traineddata | spa_old.traineddata | sqi.traineddata | srp.traineddata | srp_latn.traineddata | sun.traineddata | swa.traineddata | swe.traineddata | syr.traineddata | tam.traineddata | tat.traineddata | tel.traineddata | tgk.traineddata | tgl.traineddata | tha.traineddata | tir.traineddata | ton.traineddata | tur.traineddata | uig.traineddata | ukr.traineddata | urd.traineddata | uzb.traineddata | uzb_cyrl.traineddata | vie.traineddata | yid.traineddata | yor.traineddata ----------|---------------------------------------|---------------|
| 语言 | 备注 |
| 南非语 (Afrikaans) | ------ |
| 阿姆哈拉语 (Amharic) | ------ |
| 阿拉伯语 (Arabic) | ------ |
| 阿萨姆语 (Assamese) | ------ |
| 阿塞拜疆语 (Azerbaijani) | ------ |
| 阿塞拜疆语（西里尔字母） | Cyrillic 字符集 |
| 白俄罗斯语 (Belarusian) | ------ |
| 孟加拉语 (Bengali) | ------ |
| 藏语 (Tibetan) | ------ |
| 波斯尼亚语 (Bosnian) | ------ |
| 布列塔尼语 (Breton) | ------ |
| 保加利亚语 (Bulgarian) | ------ |
| 加泰罗尼亚语 (Catalan; Valencian) | ------ |
| 宿务语 (Cebuano) | ------ |
| 捷克语 (Czech) | ------ |
| 中文简体 (Chinese - Simplified) | 常用字识别 |
| 中文简体竖排 | 竖排文字识别 |
| 中文繁体 (Chinese - Traditional) | ------ |
| 中文繁体竖排 | ------ |
| 切罗基语 (Cherokee) | ------ |
| 威尔士语 (Welsh) | ------ |
| 丹麦语 (Danish) | ------ |
| 丹麦语（Fraktur 字体） | 古德语字体风格 |
| 德语 (German) | ------ |
| 德语（Fraktur 字体） | ------ |
| 迪维希语 (Dhivehi) | ------ |
| 不丹语 (Dzongkha) | ------ |
| 希腊语 (Greek, Modern) | ------ |
| 英语 (English) | 推荐使用 |
| 中古英语 (Middle English) | 古英语识别 |
| 世界语 (Esperanto) | ------ |
| 爱沙尼亚语 (Estonian) | ------ |
| 巴斯克语 (Basque) | ------ |
| 波斯语 (Persian) | ------ |
| 法罗语 (Faroese) | ------ |
| 法语 (French) | ------ |
| 中古法语 (Middle French) | ------ |
| 弗里斯兰语 (Western Frisian) | ------ |
| 苏格兰盖尔语 (Scottish Gaelic) | ------ |
| 爱尔兰语 (Irish) | ------ |
| 加利西亚语 (Galician) | ------ |
| 古希腊语 (Ancient Greek) | ------ |
| 古吉拉特语 (Gujarati) | ------ |
| 海地克里奥尔语 (Haitian; Haitian Creole) | ------ |
| 希伯来语 (Hebrew) | ------ |
| 印地语 (Hindi) | ------ |
| 克罗地亚语 (Croatian) | ------ |
| 匈牙利语 (Hungarian) | ------ |
| 亚美尼亚语 (Armenian) | ------ |
| 因纽特语 (Inuktitut) | ------ |
| 印度尼西亚语 (Indonesian) | ------ |
| 冰岛语 (Icelandic) | ------ |
| 意大利语 (Italian) | ------ |
| 意大利语（旧字体） | ------ |
| 爪哇语 (Javanese) | ------ |
| 日语 (Japanese) | 含平假名、片假名和常用汉字 |
| 日语竖排 | ------ |
| 卡纳达语 (Kannada) | ------ |
| 克什米尔语 (Kashmiri) | ------ |
| 格鲁吉亚语 (Georgian) | ------ |
| 格鲁吉亚语（旧字体） | ------ |
| 哈萨克语 (Kazakh) | ------ |
| 高棉语 (Central Khmer) | ------ |
| 吉尔吉斯语 (Kyrgyz) | ------ |
| 库尔德语北部方言 (Northern Kurdish) | ------ |
| 韩语 (Korean) | ------ |
| 韩语竖排 | ------ |
| 老挝语 (Lao) | ------ |
| 拉丁语 (Latin) | ------ |
| 拉脱维亚语 (Latvian) | ------ |
| 立陶宛语 (Lithuanian) | ------ |
| 卢森堡语 (Luxembourgish) | ------ |
| 马拉雅拉姆语 (Malayalam) | ------ |
| 马拉地语 (Marathi) | ------ |
| 马其顿语 (Macedonian) | ------ |
| 马耳他语 (Maltese) | ------ |
| 蒙古语 (Mongolian) | ------ |
| 毛利语 (Maori) | ------ |
| 马来语 (Malay) | ------ |
| 缅甸语 (Burmese) | ------ |
| 尼泊尔语 (Nepali) | ------ |
| 荷兰语 (Dutch; Flemish) | ------ |
| 挪威语 (Norwegian) | ------ |
| 奥克西坦语 (Occitan) | ------ |
| 奥里亚语 (Oriya) | ------ |
| 方向与段落检测 | ------ |
| 旁遮普语 (Eastern Punjabi) | ------ |
| 帕皮阿门托语 (Papiamento) | ------ |
| 波兰语 (Polish) | ------ |
| 葡萄牙语 (Portuguese) | ------ |
| 普什图语 (Pashto) | ------ |
| 克丘亚语 (Quechua) | ------ |
| 罗马尼亚语 (Romanian; Moldavian; Moldovan) | ------ |
| 俄语 (Russian) | ------ |
| 梵语 (Sanskrit) | ------ |
| 僧伽罗语 (Sinhala) | ------ |
| 斯洛伐克语 (Slovak) | ------ |
| 斯洛文尼亚语 (Slovenian) | ------ |
| 信德语 (Sindhi) | ------ |
| 西班牙语 (Spanish; Castilian) | ------ |
| 西班牙语（旧字体） | ------ |
| 阿尔巴尼亚语 (Albanian) | ------ |
| 塞尔维亚语 (Serbian) | ------ |
| 塞尔维亚语（拉丁字母） | ------ |
| 巽他语 (Sundanese) | ------ |
| 斯瓦希里语 (Swahili) | ------ |
| 瑞典语 (Swedish) | ------ |
| 叙利亚语 (Syriac) | ------ |
| 泰米尔语 (Tamil) | ------ |
| 鞑靼语 (Tatar) | ------ |
| 泰卢固语 (Telugu) | ------ |
| 塔吉克语 (Tajik) | ------ |
| 他加禄语 (Tagalog) | ------ |
| 泰语 (Thai) | ------ |
| 提格利尼亚语 (Tigrinya) | ------ |
| 汤加语 (Tonga) | ------ |
| 土耳其语 (Turkish) | ------ |
| 维吾尔语 (Uighur; Uyghur) | ------ |
| 乌克兰语 (Ukrainian) | ------ |
| 乌尔都语 (Urdu) | ------ |
| 乌兹别克语 (Uzbek) | ------ |
| 乌兹别克语（西里尔字母） | ------ |
| 越南语 (Vietnamese) | ------ |
| 意第绪语 (Yiddish) | ------ |
| 约鲁巴语 (Yoruba) | ------ |

3. 编写识别代码

java 复制代码

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;

import java.io.File;

public static void main(String[] args) {
    String dataPath = "src/main/resources/tessdata";
    String imagePath = "src/main/resources/image/img.png";
    try {
        // 获取本地图片
        File file = new File(imagePath);
        // 创建Tesseract对象
        ITesseract tesseract = new Tesseract();
        // 设置字体库路径
        tesseract.setDatapath(dataPath);
        // 设置识别语言
        tesseract.setLanguage("eng");
        // 执行ocr识别
        String result = tesseract.doOCR(file);
        System.out.println("识别的结果为：" + result);
    } catch (Exception e) {
        e.printStackTrace();
    }
}

3. 复杂验证码识别（带干扰项）使用步骤

1. 加入maven依赖

java 复制代码

<dependency>
    <groupId>org.openpnp</groupId>
    <artifactId>opencv</artifactId>
    <version>4.9.0-0</version>
</dependency>

2. 选择和 maven 依赖相同版本的 opencv下载

下载地址：https://sourceforge.net/projects/opencvlibrary/files/

以该示例为例，Windows 版本下载如下图所示：

选择下载位置后点击安装即可。

选择版本说明：

点击 Core.NATIVE_LIBRARY_NAME 常量：

点击 getNativeLibraryName() 方法：

这个就是要找的 dll 文件，即 opencv 的版本。这个常量根据 opencv 版本的不同，常量也随之变化。

3. 带干扰项验证码处理（灰度化、二值化等操作）

java 复制代码

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import org.opencv.core.Core;
import org.opencv.core.Mat;
import org.opencv.imgcodecs.Imgcodecs;
import org.opencv.imgproc.Imgproc;

import java.io.File;
import java.io.IOException;

public class CaptchaPreprocessor {
    static {
        //在使用OpenCV前必须加载Core.NATIVE_LIBRARY_NAME类,否则会报错
        System.loadLibrary(Core.NATIVE_LIBRARY_NAME);
    }

    public static void main(String[] args) throws IOException {
        String imagePath = "src/main/resources/img.png";
        String outputImagePath = "src/main/resources/img/img.png";
        String tessDataPath = "src/main/resources/tessdata";

        try {
            // 1. 使用 OpenCV 预处理图像
            Mat src = Imgcodecs.imread(imagePath, Imgcodecs.IMREAD_COLOR);
            if (src.empty()) {
                System.err.println("无法加载图像，请检查路径是否正确：" + imagePath);
                return;
            }
            Mat processed = new Mat();

            // 灰度化
            Mat gray = new Mat();
            Imgproc.cvtColor(src, gray, Imgproc.COLOR_BGR2GRAY);

            // 对比度增强（CLAHE）
            Mat clahe = new Mat();
            Imgproc.createCLAHE(2.0, new org.opencv.core.Size(8, 8)).apply(gray, clahe);

            // 自适应二值化
            Mat binary = new Mat();
            Imgproc.adaptiveThreshold(clahe, binary, 255, Imgproc.ADAPTIVE_THRESH_GAUSSIAN_C,
                    Imgproc.THRESH_BINARY, 11, 2);

            // 形态学操作去干扰线
            Mat kernel = Imgproc.getStructuringElement(Imgproc.MORPH_RECT, new org.opencv.core.Size(1, 3));
            Imgproc.morphologyEx(binary, processed, Imgproc.MORPH_OPEN, kernel);

            // 保存处理后的图像
            File destF = new File(outputImagePath).getParentFile();
            if (!destF.exists()) {
                destF.mkdirs();
            }
            boolean success = Imgcodecs.imwrite(outputImagePath, processed);
            if (!success) {
                System.err.println("图像保存失败，请检查路径或 Mat 是否为空");
            }

            // 2. 使用 Tess4J 进行 OCR 识别
            ITesseract tesseract = new Tesseract();
            tesseract.setDatapath(tessDataPath); // 设置 tessdata 路径
            tesseract.setLanguage("eng");         // 英文识别
            tesseract.setPageSegMode(7);          // 单行文本识别

            File imageFile = new File(imagePath);
            String result = tesseract.doOCR(imageFile);

            // 输出识别结果
            System.out.println("识别结果: " + result.trim());

        } catch (Exception e) {
            System.err.println("识别失败: " + e.getMessage());
            e.printStackTrace();
        }
    }
}

4. 配置 VM options，添加 -Djava.library.path=安装位置\opencv\build\java\x64。(如果 java -jar 启动的话，可以直接添加 -Djava.library.path=安装位置\opencv\build\java\x64 或 --java.library.path=安装位置\opencv\build\java\x64）

以配置 VM options 为例，具体操作流程如下图所示：

关于配置 java.library.path 说明：

在未配置 -Djava.library.path 之前启动项目会报如下错误：

点击 ClassLoader.java:1863

从该图可以看出，他读取 java.library.path 和 sun.boot.library.path 这两个路径。所以说 -Djava.library.path 可以替换为 -Dsun.boot.library.path。

4. 执行测试

以下面这个图片为例：

原图片经过去噪、二值化等操作处理后：

识别结果为：