tesseract:一个.Net版本的开源OCR项目

推荐一个.Net版本的开源OCR项目,方便我们在项目中集成OCR功能。

01 项目简介

tesseract是针对Tesseract-OCR(C++)引擎封装的.NET版本,支持超过100种语言的文本识别,使得.NET开发者能够轻松地利用Tesseract的强大功能,无需深入了解OCR的底层技术。

此项目缺点是,只能识别印刷的文本,针对手写的需要自己训练语言包。

02 使用方法

1、安装依赖Tesseract

复制代码
Install-Package Tesseract

2、下载语言数据文件

根据需求下载对于的语言数据文件,并在属性设置"复制到输出目录"设置为"始终",如下示例为中文简体数据文件。

语言文件下载地址:

https://github.com/tesseract-ocr/tessdata_fast

3、示例代码

复制代码
using System.Diagnostics;
using Tesseract;

var testImagePath = "./photo.bmp";

try
{
    using (var engine = new TesseractEngine(@".", "chi_sim", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();

                Console.WriteLine("识别结果:" + text);
            }
        }
    }
}
catch (Exception e)
{
    Console.WriteLine(e.ToString());
}
Console.ReadKey(true);

4、识别效果

图片:

识别:

03 项目地址

https://github.com/charlesw/tesseract

  • End -

更多开源项目: https://github.com/bianchenglequ/NetCodeTop

我是编程乐趣,一个.Net开发经验老程序员,欢迎"关注"我,每天为你分享开源项目和编程知识。

也欢迎加入【.Net技术编程交流社区】,和大家共同学习交流!,点击加入https://bbs.csdn.net/topics/613465368

推荐阅读

2个零基础入门框架教程!

一个C#开源工具库,集成了超过1000个扩展方法

Sep:一个低内存、高性能的CSV文件读写操作.Net开源库

Boxed:包含多个.Net项目模板,涵盖了ASP.NET Core API、GraphQL等。

Atata:一个基于 Selenium的C#自动化测试Web框架

相关推荐
步步为营DotNet5 小时前
深度剖析.NET中IHostedService:后台服务管理的关键组件
服务器·网络·.net
一叶星殇5 小时前
.NET WebAPI:用 Nginx 还是 IIS 更好
运维·nginx·.net
山顶夕景5 小时前
【VLM】Visual Merit or Linguistic Crutch? 看DeepSeek-OCR
大模型·llm·ocr·多模态
2401_836235869 小时前
通关利器:中安未来TH-ER610电子护照阅读器,无纸化时代的身份核验安全保障
人工智能·科技·深度学习·安全·ocr
fs哆哆9 小时前
VB.NET 与 VBA 中数组索引起始值的区别
算法·.net
MM_MS10 小时前
Halcon一维码的读取、批量条码检测_含未检测到条码处理、兼容多种二维码识别、OCR字符提取
图像处理·人工智能·算法·计算机视觉·目标跟踪·视觉检测·ocr
技小宝12 小时前
从 OCR 到 AI:提单号识别的技术升级与落地步骤
大数据·人工智能·经验分享·职场和发展·ocr·学习方法·交通物流
梁辰兴12 小时前
DeepSeek-OCR 2如何让AI像人类一样“看懂“复杂文档?
人工智能·ai·大模型·ocr·deepseek·梁辰兴·deepseek-ocr 2
玩泥巴的14 小时前
如何实现一套.net系统集成多个飞书应用
c#·.net·二次开发·飞书