Nougat:科学文档的OCR 使用记录

https://github.com/facebookresearch/nougat

python环境需要在3.8以上

安装:pip install nougat-ocr

模型默认下载地址:/home/****/.cache/torch/hub/nougat-0.1.0-small

环境安装好之后默认使用cpu

UserWarning: CUDA initialization: The NVIDIA driver on your system is too old (found version 11080). Please update your GPU driver by downloading and installing a new version from the URL: http://www.nvidia.com/Download/index.aspx Alternatively, go to: https://pytorch.org to install a PyTorch version that has been compiled with your version of the CUDA driver. (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:108.)

return torch._C._cuda_getDeviceCount() > 0

WARNING:root:No GPU found. Conversion on CPU is very slow.

如果需要使用GPU,则需要重新安装和自己cuda版本对应的torch等,我这边是cuda11.8

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

环境配置好之后即可进行PDF识别

在output目录下会生成.mmd格式的文件

vscode中使用如下插件可以查看mmd格式中的内容,文字可直接复制

3090GPU上

显存占用17368 / 24576M 显存占用17G,16页的PDF 耗时30秒

自己随便写的文字可能识别不了,图片中的文字无法识别

相关推荐
私人珍藏库2 天前
[Windows] Umi-OCR 开源批量文字识别 支持图片,文档,二维码,截图等
ocr
hwshea2 天前
Tesseract OCR使用
ocr
OCR_API5 天前
ocr智能票据识别系统|自动化票据识别集成方案
运维·自动化·ocr
山川而川-R6 天前
PaddlePaddle的OCR模型转onnx-转rknn模型_笔记4
笔记·ocr·paddle
OCR_API8 天前
深度学习算法:ocr营业执照识别可提取字段、接口识别
ocr
深圳市快瞳科技有限公司9 天前
成本哪个更低更好用?分析对比大模型OCR、传统OCR和深度学习OCR
人工智能·深度学习·ocr
小马过河R14 天前
OCR与多模态大模型的关系
人工智能·机器学习·语言模型·nlp·ocr
沉到海底去吧Go14 天前
【自动化办公】批量图片PDF自定义指定多个区域识别重命名,批量识别铁路货物运单区域内容改名,基于WPF和飞桨ocr深度学习模型的解决方案
ocr·paddlepaddle·自动化办公pdf批量操作·pdf电子发票批量提取解决方案·pdf电子发票提取明细到表格·批量获取pdf多区域内容表格·pdf订单详情多区域提取表格
算能开发者社区17 天前
2025 CCF BDCI|“基于TPU平台的OCR模型性能优化”一等奖作品
人工智能·性能优化·ocr
油泼辣子多加17 天前
OCR--光学字符识别
人工智能·深度学习·ocr