Nougat:科学文档的OCR 使用记录

https://github.com/facebookresearch/nougat

python环境需要在3.8以上

安装:pip install nougat-ocr

模型默认下载地址:/home/****/.cache/torch/hub/nougat-0.1.0-small

环境安装好之后默认使用cpu

UserWarning: CUDA initialization: The NVIDIA driver on your system is too old (found version 11080). Please update your GPU driver by downloading and installing a new version from the URL: http://www.nvidia.com/Download/index.aspx Alternatively, go to: https://pytorch.org to install a PyTorch version that has been compiled with your version of the CUDA driver. (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:108.)

return torch._C._cuda_getDeviceCount() > 0

WARNING:root:No GPU found. Conversion on CPU is very slow.

如果需要使用GPU,则需要重新安装和自己cuda版本对应的torch等,我这边是cuda11.8

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

环境配置好之后即可进行PDF识别

在output目录下会生成.mmd格式的文件

vscode中使用如下插件可以查看mmd格式中的内容,文字可直接复制

3090GPU上

显存占用17368 / 24576M 显存占用17G,16页的PDF 耗时30秒

自己随便写的文字可能识别不了,图片中的文字无法识别

相关推荐
__lost1 小时前
MATLAB实现神经网络的OCR识别
神经网络·matlab·ocr
思通数科AI全行业智能NLP系统2 天前
AI视频技术赋能幼儿园安全——教师离岗报警系统的智慧守护
大数据·人工智能·安全·目标检测·目标跟踪·自然语言处理·ocr
ocr_sinosecu12 天前
OCR定制识别:解锁文字识别的无限可能
人工智能·机器学习·ocr
poppyCL3 天前
java使用CMU sphinx语音识别
ocr·语音识别·cmusphinx
深圳市快瞳科技有限公司3 天前
当OCR遇上“幻觉”:如何让AI更靠谱地“看懂”文字?
人工智能·ai·ocr
ruyingcai6666663 天前
用python进行OCR识别
开发语言·python·ocr
辣香牛肉面4 天前
识别图片内容OCR并重命名文件
ocr·图片识别
画中有画4 天前
一种免费的离线ocr-汉字识别率100%
ocr
思通数据5 天前
开源AI守护童心——幼儿跌倒报警系统的智能安全革命
人工智能·深度学习·安全·目标检测·计算机视觉·目标跟踪·ocr
安替-AnTi7 天前
Google Colab测试部署Qwen大模型,实现PDF转MD场景OCR 识别(支持单机环境)
pdf·ocr·多模态·qwen 2.5·图片转文本