一种免费的离线ocr-汉字识别率100%

一般我们手机中常用的ocr库有,Tesseract,paddle ocr,EasyOCR, ocrLite等等,这些ocr库中百度的paddle ocr效果最好,但是再好的效果也会偶尔识别错几个汉字。当我们在做自动化脚本过程中,如果识别错的汉字刚好是我们要"抓"的汉字就尴尬了,我们的自动化脚本就会出错,到不到预期效果。今天给大家介绍一种免费的,带增量学习的汉字识别率接近100%的ocr,可以大大提升自动化脚本的正确率。

一、准备开发环境

不需要安装任何软件,所有一切都在浏览器上完成, 详细请见文档说明,新建脚本,编写一段简单的ocr代码如下代码:

javascript 复制代码
function main() {
    var r = ocr();
    console.log('r', r);
}

二、开启awesome功能

如果上述代码识别的汉字有个别不对,我们可以开启awesome功能,开启后系统会更给出更精确的识别结果,代价就是会多话费0.5秒左右,不同的手机时间会略有不同。

javascript 复制代码
function main() {
    var r = ocr({awesome:{threshold: 0.9, count: 3}});
    console.log('r', r);
}

threshold为阈值,一般取之范围为0.5-0.9之间,count取值范围为2-6,一般取0.9和3就够用了。

三、增量学习

如果开启awesome后还是有个别汉字识别出错,则我们可以使用增量学习,把正确的文本添加到ocr文本库中,在线训练模型,模型训练成功后,打包进冰狐apk,就可以正确识别所有汉字了。

例子:正确句子:冰狐智能辅助,识别错误句子:冰弧智能辅助。

1.我们可以将正确的句子"冰狐智能辅助"添加到ocr文本库中,进行增量学习,如下图所示:

2.然后点击训练模型,根据文本多少,一般几秒中会训练完成,完成后会弹出下载模型连接,如下图所示:

3.将下载下来的model.bin文件打包进冰狐apk中

在红色圈圈的地方上传刚才下载model.bin文件,并点击上传。然后确认打包,打包后,可以直接下载apk,此时新的模型就在apk中了,安装新版本apk,即可实现100%汉字识别。

四、调优

如果增量学习后还是无法识别,请按如下方法调试:

  • 请增加权重值,再次学习
  • 将count值调大,最大到6
  • 将threshold值调小

通过以上几步可以实现100%汉字识别率

五、总结

本文介绍了一种免费的、离线的可以实现100%汉字识别率的带增量学习的ocr,比市面上已知的任何ocr效果都要好,关键还是免费,识别时间一般在1秒左右,非常适合在手机中使用ocr实现自动化脚本的场景。

相关推荐
沉到海底去吧Go15 小时前
【行驶证识别成表格】批量OCR行驶证识别与Excel自动化处理系统,行驶证扫描件和照片图片识别后保存为Excel表格,基于QT和华为ocr识别的实现教程
自动化·ocr·excel·行驶证识别·行驶证识别表格·批量行驶证读取表格
撞南墙者20 小时前
如何让AI自己检查全文?使用OCR和LLM实现自动“全文校订”(可DIY校订规则)
人工智能·ocr
沉到海底去吧Go2 天前
【图片识别改名】如何批量将图片按图片上文字重命名?自动批量识别图片文字并命名,基于图片文字内容改名,WPF和京东ocr识别的解决方案
ocr·wpf·图片识别改名·图片识别重命名·图片内容改名
TextIn智能文档云平台3 天前
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
人工智能·自然语言处理·ocr·pdf解析·textin·复杂文档解析
mulannanlu3 天前
免费开源Umi-OCR,离线使用,批量精准!
ocr
凌康ACG4 天前
易语言使用OCR
c++·yolo·c#·ocr·易语言
开开心心就好4 天前
小巧实用,Windows文件夹着色软件推荐
java·开发语言·前端·决策树·c#·ocr·动态规划
郑知鱼5 天前
【拥抱鸿蒙】HarmonyOS NEXT实现双路预览并识别文字
华为·ocr·harmonyos·鸿蒙·移动端·鸿蒙next·ohos
rick_grace7 天前
使用 pytesseract 构建一个简单 OCR demo
ocr
开开心心就好7 天前
高效合并 Excel 表格实用工具
开发语言·javascript·python·qt·r语言·ocr·excel