要给 OCR 装个脑子吗?DeepSeek-OCR 2 让文档不再只是扫描

如何形容现在市面上普遍的 OCR 呢?可能你已经习惯了它的「固执」------无论文档布局多复杂,它总是老老实实从左到右、从上到下扫一遍。遇到双栏论文还好,碰上跨页表格或者公式脚注混排,输出结果往往乱得让人头疼。这不是识别不准,而是理解方式出了问题。

今年 1 月 DeepSeek 团队推出的 DeepSeek-OCR 2 换了个思路,它不再把文档当成一张平面图,而是尝试理解这篇文章应该先读什么。新设计的 DeepEncoder V2 架构引入了因果流机制:视觉编码器看完整个页面后,由专门的查询模块决定阅读顺序------标题优先于正文,表格注释紧跟数据,公式按逻辑展开而非按位置罗列。

结果很直接。OmniDocBench 最新测试中,这套方案把整体准确率推到了 91% 以上,公式识别的提升尤为明显。更实用的是,它输出的 Markdown 已经带着层级结构,省去了大量后期整理的功夫。

参数规模控制在单卡能跑的级别,token 上限可调,重复生成的情况也比上一代少了近三分之一。对于需要批量处理文档的场景,这意味着可用性的大幅提升。

当一个模型能够同时看懂版式、识别文字并直接输出结构化结果,文档数字化的目标就不再只是「能认字」,而是「能理解」。DeepSeek-OCR 2 正是在这一方向上的一次重要尝试。

教程链接:https://go.openbayes.com/NOdm2

使用云平台: OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v

首先点击「公共教程」,找到「DeepSeek-OCR 2:视觉因果流」,单击打开。

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

若显示「Bad Gateway」,这表示模型正在加载中,请等待约 2-3 分钟后刷新页面即可。

使用步骤如下:

  1. 页面跳转后,点击左侧 README 页面,进入后点击上方「运行」。

2.点击运行后等待加载模型与初始化

3.运行完成,即可点击右侧 API 地址跳转至 demo 页面。

4.上传所需要的 JPG/PNG 格式的图片或 PDF 文档。

5.上传完成后点击运行,稍等片刻右侧结果框生成纯文本结果。

教程链接:
https://go.openbayes.com/NOdm2

相关推荐
财富自由且长命百岁10 小时前
移动端老兵转型端侧 AI:第一周,我跑通了 ResNet50 推理
机器学习
美酒没故事°10 小时前
Open WebUI安装指南。搭建自己的自托管 AI 平台
人工智能·windows·ai
云烟成雨TD10 小时前
Spring AI Alibaba 1.x 系列【6】ReactAgent 同步执行 & 流式执行
java·人工智能·spring
简简单单做算法10 小时前
基于GA遗传优化的Transformer-LSTM网络模型的时间序列预测算法matlab性能仿真
深度学习·matlab·lstm·transformer·时间序列预测·ga遗传优化·电池剩余寿命预测
AI攻城狮10 小时前
用 Obsidian CLI + LLM 构建本地 RAG:让你的笔记真正「活」起来
人工智能·云原生·aigc
鸿乃江边鸟10 小时前
Nanobot 从onboard启动命令来看个人助理Agent的实现
人工智能·ai
lpfasd12310 小时前
基于Cloudflare生态的应用部署与开发全解
人工智能·agent·cloudflare
俞凡10 小时前
DevOps 2.0:智能体如何接管故障修复和基础设施维护
人工智能
comedate10 小时前
[OpenClaw] GLM 5 关于电影 - 人工智能 - 的思考
人工智能·电影评价
财迅通Ai10 小时前
6000万吨产能承压 卫星化学迎来战略窗口期
大数据·人工智能·物联网·卫星化学