开源字符识别 OCR 引擎推荐

Tesseract 开源 OCR 引擎（主存储库）

github地址

https://github.com/tesseract-ocr/tesseract

官方网址

tesseract-ocr.github.io/

Tesseract 是一个开源的光学字符识别（OCR）引擎，它能够从图像文件中识别和提取文字。Tesseract 由 Ray Smith 在 1985 到 1995 年间在惠普公司（Hewlett-Packard）的布里斯托尔实验室开发。在 2005 年，Tesseract 被惠普开源，并且自 2006 年以来，它一直在由 Google 进行维护和开发。

Tesseract 的主要特点包括：

多语言支持：Tesseract 支持多种语言，包括但不限于英语、中文、西班牙语、法语、德语等。它通过使用预训练的语言模型来提高识别的准确性。
平台兼容性：Tesseract 可以在多种操作系统上运行，包括 Windows、Linux、Mac OS X 等。
命令行工具：Tesseract 主要作为一个命令行工具提供，用户可以通过命令行接口与它交互，执行 OCR 任务。
易于集成：Tesseract 可以很容易地集成到其他应用程序中，它提供了多种编程语言的接口，如 C/C++、Python、Java 等。
开源和免费：Tesseract 是完全开源的，并且可以免费使用。它的源代码托管在 GitHub 上，任何人都可以贡献代码或者修改代码来适应自己的需求。
社区支持：Tesseract 拥有一个活跃的社区，用户和开发者可以分享经验、解决问题和改进引擎。
培训和自定义：Tesseract 允许用户对自己的数据集进行训练，以创建定制的语言模型和字符识别规则。
输出格式：Tesseract 支持多种输出格式，包括纯文本、HTML、PDF、TSV 等，这使得它可以根据不同的需求进行灵活的使用。

Tesseract 的最新版本是 4.x，它引入了一些新的功能和改进，包括一个基于神经网络（LSTM）的 OCR 引擎，这个新引擎专注于线条识别，并且提供了更好的字符识别性能。Tesseract 4 也与之前的版本兼容，支持旧的 OCR 引擎模式 (--oem0) 和相关的 traineddata 文件。

总的来说，Tesseract 是一个功能强大、灵活且不断进化的 OCR 引擎，它在学术、商业和开源社区中都有广泛的应用。

Tesseract 4 添加了一个新的基于神经网络 (LSTM) 的OCR 引擎，该引擎专注于线条识别，但仍然支持 Tesseract 3 的旧版 Tesseract OCR 引擎，该引擎通过识别字符模式进行工作。通过使用旧版 OCR 引擎模式 (--oem 0) 可以实现与 Tesseract 3 的兼容性。它还需要支持旧引擎的经过训练的数据文件，例如来自tessdata存储库的数据文件。

Stefan Weil 是现任首席开发人员。Ray Smith 一直是首席开发人员，直到 2018 年。维护者是 Zdenko Podobny。有关贡献者列表，请参阅作者和 GitHub 的贡献者日志。

Tesseract支持 unicode (UTF-8)，并且可以"开箱即用"识别100 多种语言。

Tesseract 支持多种图像格式，包括 PNG、JPEG 和 TIFF。

Tesseract 支持各种输出格式：纯文本、hOCR (HTML)、PDF、仅不可见文本的 PDF、TSV 和 ALTO。

您应该注意，在许多情况下，为了获得更好的 OCR 结果，您需要提高提供给 Tesseract 的图像质量。

该项目不包括 GUI 应用程序。如果您需要，请参阅3rdParty文档。

可以训练Tesseract识别其他语言。有关更多信息，请参阅Tesseract 培训。

安装

您可以通过预构建的二进制包安装 Tesseract 或从源代码构建它。

从源代码构建 Tesseract 需要具有良好 C++17 支持的 C++ 编译器。

运行

基本命令行用法：

复制代码

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

有关各种命令行选项的更多信息，请使用tesseract --help或man tesseract。

示例可以在文档中找到。