技术栈

cnocr

扶尔魔ocy
14 小时前
python·中文识别·cnocr
python 部署可离线使用的中文识别OCR(window)日常很多应用、小程序都提供有文字识别功能,导致不少项目业主也会提这方面需求,但在线就意味着付费,本人在前面分享过一个在线调用百度OCR识别表格的应用工具也是付费的(一天免费调用50次,只够做免费调研),本篇将分享python自带的可离线使用的中文识别(cnocr)环境的搭建。
yivifu
10 个月前
python·pdf·numpy·pymupdf·cnocr
利用cnocr库完成中文扫描pdf文件的文字识别很多pdf文件文字识别软件都会收费,免费的网页版可能会带来信息泄露,还有一些类似于腾讯AI和百度AI的接口都有调用次数限制,因此,利用识别正确率极高且免费的cnocr库来自己动手做个pdf文件文字识别程序就是一个很不错的选择。以下程序利用pymupdf打开pdf文件并将页面图像数据读出,然后用numpy将pymupdf读取的页面图像转换为cnocr能够接受的np.ndarray格式的图像数据,再由cnocr进行文字识别。numpy、pymupdf和cnocr库的安装都可以用pip install指令简单完
我是有底线的