在矩池云上如何使用DeepSeek-OCR

DeepSeek-OCR 模型介绍

DeepSeek-OCR 是一个专注于光学字符识别(OCR)的深度学习模型,旨在从图像或文档中准确提取文本信息。该模型结合了计算机视觉和自然语言处理技术,能够处理多种语言、复杂布局以及低质量图像中的文本识别任务。

核心技术特点

多尺度特征融合 DeepSeek-OCR 采用金字塔结构的卷积神经网络,从不同尺度提取图像特征。通过特征融合模块整合浅层细节信息和深层语义信息,提升对不同尺寸文字的识别能力。

注意力机制 模型集成自注意力模块和空间注意力模块,动态聚焦于文本区域。自注意力捕捉字符间长距离依赖关系,空间注意力抑制背景噪声干扰。

序列建模 采用双向长短时记忆网络(Bi-LSTM)或Transformer结构对字符序列建模,利用上下文信息纠正单字符识别错误。输出层连接CRF(条件随机场)进一步优化序列标注结果。

技术优势

高精度识别 在标准测试集(如ICDAR系列)上,中英文混合文本识别准确率超过95%。支持倾斜、弯曲、透视变换等非规整文本的端到端识别。

多语言支持 内置多语言切换模块,通过共享特征提取层和语言特定的预测头,实现中、英、日、韩等20+种语言的混合识别。

实时处理能力 采用轻量级网络设计和硬件加速技术,在主流GPU上可实现每秒50+帧的图像处理速度,满足实时OCR需求。

典型应用场景

文档数字化 自动识别扫描文档、发票、合同等纸质文件的文字内容,支持表格结构和段落格式的还原。

移动端应用 集成到手机APP中,实现名片识别、翻译取词、身份证信息自动录入等功能。

工业质检 读取产品包装、标签上的批号、日期等信息,与数据库核对实现自动化质检流程

如何在矩池云中使用DeepSeek-OCR

在矩池云中已经给大家预装好了DeepSeek-OCR模型,模型存放在 /public/models/nlp/DeepSeek-OCR路径下。

首先我们先租用一台机器,建议使用8区4090-24G机器或者14区4090-48G的机器

租用机器后我们需要进入虚拟环境deepseek-ocr,这个环境所有的依赖都已经安装好了

进入deepseek-ocr虚拟环境之后再进入DeepSeek-OCR/DeepSeek-OCR-master/DeepSeek-OCR-vllm文件夹,文件夹中包含如下:

小编在这里只介绍config.py、run_dpsk_ocr_eval_batch.py、run_dpsk_ocr_image.py、run_dpsk_ocr_pdf.py这四个脚本的含义,其他的不需要管,也不要修改。

config.py是配置文件,定义模型参数、路径常量、超参数等全局变量的文件,在这里面可以设置图片大小,模型路径、读去图片路径和代码执行输出路径

run_dpsk_ocr_eval_batch.py主要用于批量评估脚本,测试集性能验证。典型功能有加载测试数据集、调用OCR模型进行批量预测、计算准确率、召回率等指标、生成评估报告。

run_dpsk_ocr_image.py是单张图片OCR执行的入口脚本,实现流程分三步,加载图像文件、调用deepseek_ocr.py的识别功能、输出结构化识别结果。

run_dpsk_ocr_pdf.py是PDF文档处理的专用脚本,功能包括:PDF转图像(按页分割)、多页OCR结果合并、保持原始版面结构的文本提取、支持加密PDF的解密处理。

各脚本通过配置文件config.py统一参数管理,核心识别逻辑复用deepseek_ocr.py的实现,处理不同输入类型时通过专用入口脚本适配。

案例测试

小编使用一个小案例测试一下,使用文档处理的专用脚本run_dpsk_ocr_pdf.py进行测试,小编准备了斗破苍穹PDF版当成输入文件,文件路径放至/public/models/nlp路径下,输出路径则放/mnt/output/斗破苍穹,模型路径前面已经有介绍在/public/models/nlp/DeepSeek-OCR路径,然后小编把这些信息在配置文件config.py中修改上去,其他参数保持不变

保存成功后执行档处理的专用脚本run_dpsk_ocr_pdf.py进行测试,如果出现如下情况,表示显存不够,可以修改图片大小

再次运行服务,可以看到已经运行成功

接下来查看输出目录,可以看到从PDF成功转化为可编辑版

模型链接

https://github.com/deepseek-ai/DeepSeek-OCR

相关推荐
一顿能吃五大海碗啊啊啊15 小时前
OCR大模型如何解决多页文档的问题
ocr·ocr大模型·ocr长文档·ocr大模型面试
专家大圣15 小时前
告别付费 OCR!PaddleOCR-VL + cpolar,打造专属便携识别工具✨
网络·ocr·内网穿透·cpolar
AI人工智能+16 小时前
网约车运输证识别技术:深度融合计算机视觉与自然语言处理技术,实现对运输证全字段的高精度定位、识别与结构化提取
深度学习·计算机视觉·ocr·网约车运输证识别
Pyeako16 小时前
基于Qt和PaddleOCR的工业视觉识别报警系统开发
人工智能·python·深度学习·数码相机·opencv·ocr·pyqt5
guslegend1 天前
DeepSeek-OCR-2快速入门
ocr
hsling松子1 天前
基于 PaddleOCR-VL 与 PaddleFormers 的多模态文档解析微调项目
人工智能·计算机视觉·语言模型·自然语言处理·ocr
旗讯数字1 天前
智破纸质壁垒 赋能医药合规——旗讯数字医药注册批件纸质文档智能识别与结构化提取对接解决方案
数据结构·ocr·合规审查
百度智能云2 天前
OmniDocBench 93.12分!百度千帆发布端到端文档智能模型Qianfan-OCR
百度·ocr
大傻^2 天前
LangChain4j 企业知识库实战:PDF 解析、OCR 与文档加载器生态
人工智能·pdf·ocr·langchain4j
AI人工智能+2 天前
融合图像处理、深度学习和自然语言处理的手写文字识别技术,为各领域文档智能化处理提供了技术支撑
深度学习·计算机视觉·自然语言处理·ocr·手写文字识别