【Deepseek OCR】重磅测试,mac环境下的体验【本人已经本地实验成功】

文章目录

Deepseek ocr 这模型

在人工智能时代,光学字符识别(OCR)技术已成为数字化转型的核心引擎,从文档扫描到知识提取,其应用正日益扩展。2025年10月20日,DeepSeek-AI团队开源了DeepSeek-OCR模型,这款约30亿参数的视觉-语言模型(VLM)以"上下文光学压缩"(Contexts Optical Compression)为核心创新,通过将长文本转化为视觉令牌,实现7-20倍的压缩率,同时保持高精度。该模型在撰写本文戒指10月23日10:00已在GitHub上迅速积累超过12K星,备受Andrej Karpathy等行业大咖青睥。本文从源码分析、架构设计、本地案例验证及实际使用场景四个维度,深入剖析DeepSeek-OCR的效果与潜力,揭示其在OCR领域的突破性价值。

说了很多,模型参数(3B)足够本地运行了,本人mac 本地环境,想针对该模型进行工作适配。

模型下载

复制代码
https://huggingface.co/deepseek-ai/DeepSeek-OCR

镜像地址

复制代码
https://hf-mirror.com/deepseek-ai/DeepSeek-OCR

使用用再说

先下下来尝试一下

shell 复制代码
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git

如果网络有问题使用如下

shell 复制代码
git clone https://gitee.com/ZhangALiang/DeepSeek-OCR.git

本人在镜像上用pdf mathTranslate生成了一份中文版论文。可以对照着看。

搭配环境 【conda环境】

shell 复制代码
conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

下载依赖

shell 复制代码
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0
pip install -r requirements.txt

注意,本人使用pip install torch2.6.0 torchvision0.21.0 torchaudio2.6.0 --index-url https://download.pytorch.org/whl/cu118 无法下载。
也没有安装pip install flash-attn2.7.3 --no-build-isolation

也就是没有使用vllm

使用 hf-mirror.com 替换 https://huggingface.co

python 复制代码
# HUGGINGFACE_CO_URL_HOME = "https://huggingface.co/"
HUGGINGFACE_CO_URL_HOME = "https://hf-mirror.com/"
_HF_DEFAULT_ENDPOINT = "https://hf-mirror.com"
# _HF_DEFAULT_ENDPOINT = "https://huggingface.co"

报错指南

model镜像无法下载
python 复制代码
# 1. 设置镜像源(核心)
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
# (可选)2. 设置本地缓存路径(避免每次下载到默认目录)
os.environ["HUGGINGFACE_HUB_CACHE"] = "./my_hf_cache"
报错cuda错误

由于本地是mac的,不支持cuda,那么出现cuda错误,那么就跳转到指定位置,对cuda()注解掉就行。

在这里插入图片描述

最终结果

识别还是挺准的。就是有点慢

Todo后续会使用gradio来体验

有兴趣拉一下

代码在

而且输出内容。有文字内容,同时还有图像分割。

调整代码地址

相关推荐
HyperAI超神经13 小时前
在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
开发语言·人工智能·深度学习·神经网络·机器学习·ocr·创业创新
猫头虎14 小时前
如何解决 OpenClaw “Pairing required” 报错:两种官方解决方案详解
网络·windows·网络协议·macos·智能路由器·pip·scipy
蛋王派15 小时前
DeepSeek-OCR-v2 模型解析和部署应用
人工智能·ocr
小白狮ww19 小时前
要给 OCR 装个脑子吗?DeepSeek-OCR 2 让文档不再只是扫描
人工智能·深度学习·机器学习·ocr·cpu·gpu·deepseek
智慧地球(AI·Earth)1 天前
DeepSeek架构新探索!开源OCR 2诞生!
架构·ocr
OpenBayes1 天前
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
人工智能·深度学习·目标检测·机器学习·大模型·ocr·gpu算力
PPIO派欧云1 天前
PPIO上线GLM-OCR:0.9B参数SOTA性能,支持一键部署
人工智能·ai·大模型·ocr·智谱
东华果汁哥1 天前
【大模型 OCR】GLM-OCR 使用教程:从入门到部署
ocr
皮卡车厘子2 天前
Mac 挂载目录
macos
h7ml2 天前
查券返利机器人的OCR识别集成:Java Tesseract+OpenCV优化图片验证码的自动解析方案
java·机器人·ocr