Nougat:科学文档的OCR 使用记录

https://github.com/facebookresearch/nougat

python环境需要在3.8以上

安装:pip install nougat-ocr

模型默认下载地址:/home/****/.cache/torch/hub/nougat-0.1.0-small

环境安装好之后默认使用cpu

UserWarning: CUDA initialization: The NVIDIA driver on your system is too old (found version 11080). Please update your GPU driver by downloading and installing a new version from the URL: http://www.nvidia.com/Download/index.aspx Alternatively, go to: https://pytorch.org to install a PyTorch version that has been compiled with your version of the CUDA driver. (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:108.)

return torch._C._cuda_getDeviceCount() > 0

WARNING:root:No GPU found. Conversion on CPU is very slow.

如果需要使用GPU,则需要重新安装和自己cuda版本对应的torch等,我这边是cuda11.8

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

环境配置好之后即可进行PDF识别

在output目录下会生成.mmd格式的文件

vscode中使用如下插件可以查看mmd格式中的内容,文字可直接复制

3090GPU上

显存占用17368 / 24576M 显存占用17G,16页的PDF 耗时30秒

自己随便写的文字可能识别不了,图片中的文字无法识别

相关推荐
yuanlulu2 天前
昇腾环境ppstreuct部署问题记录
人工智能·深度学习·llm·ocr·ppstructure
微学AI3 天前
GPU算力平台|在GPU算力平台部署轻量级中文OCR项目(chineseocr_lite)
ocr·gpu算力
塞大花5 天前
PDF文件提取开源工具调研总结
pdf·ocr·paddlepaddle·paddle·pdf文件提取·pdf内容识别
pchmi7 天前
C# OpenCV机器视觉:OCR产品序列号识别
opencv·c#·ocr·机器视觉
玩电脑的辣条哥7 天前
如何用python部署本地ocr脚本
开发语言·python·ocr
后端常规开发人员7 天前
最好用的图文识别OCR -- PaddleOCR(4) 模型微调
python·ocr·paddleocr
CAD快速看图12 天前
PDF如何提取文字?OCR技术快速识别提取PDF中的文字内容!这种简单方法一定要知道!
pdf·ocr
goomind14 天前
MATLAB深度学习实战文字识别
深度学习·计算机视觉·matlab·ocr·文字识别
Andy_shenzl14 天前
13、Ollama OCR
ocr
后端常规开发人员14 天前
最好用的图文识别OCR -- PaddleOCR(2) 提高推理效率(PPOCR模型转ONNX模型进行推理)
python·ocr·onnx·paddleocr