金融OCR领域实习日志(二)——四种OCR模型效果测试(附图)

文章目录

四种模型ocr效果简单测试

模型

PP-OCRv3、ppocr_server_v2、CnOCR、TesseractOCR

场景

发票(扫描件)、表格扫描件

1.paddle框架下PP-OCRv3

使用轻量级模型PP-OCRv3

1.1.效果如下:

1号表格扫描件==(时间2.13s)==:

1号发票==(时间1.7s)==

2号发票扫描件==(时间2.36s)==

1.2.总结

表格扫描件:效果一切良好

发票实拍:有部分模糊文字识别不清,图片太糊了

发票扫描件:效果良好,但是特殊字符无法识别,后续补充训练可以解决

2.paddle框架下ppocr_server_v2

使用通用模型PP-OCRv3

2.1.效果如下

1号发票

2.2.总结

效果太差不试了

3.CnOCR

这里ocr参数全部设置默认

3.1.效果如下

1号表格扫描件:

1号发票:

3.2.总结

比起paddle中文模型,有较大差距

表格问题较小,但比如"牡"丹识别成了"社"丹

发票比较模糊,问题很多,比如联合识别成联音,公司识别成公碍等错误

特殊字符也同paddle一样无法识别,识别成了8,不过可以补充训练

4.TesseractOCR

4.1.效果如下

1号表格:

1号发票:

4.2.总结

中文识别一团浆糊,完全不能用

5.后续想法

基于paddle2.6发布的版本,PP-OCRv3表现最好,也是百度最新的OCR中文检测识别模型(paddle2.7下的v4没测),百度通用模型的效果相比而言差了很多。CnOCR比paddle差距明显,特别是模糊图片,Tesseract在中文场景下则是完全不能用。

此外,由于发票文档分布非常复杂,导致大部分识别模型无法对齐,但由于发票的模板非常固定,可以通过坐标变换先调整发票摆正,再裁剪图片喂给模型识别,以此来控制各个识别区域,避免文字错位。

相关推荐
Magnum Lehar4 分钟前
vulkan游戏引擎test_manager实现
java·算法·游戏引擎
哆啦A梦的口袋呀11 分钟前
基于Python学习《Head First设计模式》第六章 命令模式
python·学习·设计模式
努力搬砖的咸鱼13 分钟前
从零开始搭建 Pytest 测试框架(Python 3.8 + PyCharm 版)
python·pycharm·pytest
Calvex15 分钟前
PyCharm集成Conda环境
python·pycharm·conda
一千柯橘27 分钟前
python 项目搭建(类比 node 来学习)
python
sduwcgg32 分钟前
python的numpy的MKL加速
开发语言·python·numpy
大模型真好玩33 分钟前
可视化神器WandB,大模型训练的必备工具!
人工智能·python·mcp
东方佑35 分钟前
使用 Python 自动化 Word 文档样式复制与内容生成
python·自动化·word
水蓝烟雨36 分钟前
[面试精选] 0094. 二叉树的中序遍历
算法·面试精选
钢铁男儿41 分钟前
Python 接口:从协议到抽象基 类(定义并使用一个抽象基类)
开发语言·python