ocr

HyperAI超神经4 小时前
开发语言·人工智能·深度学习·神经网络·机器学习·ocr·创业创新
在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁在视觉语言模型(VLMs)的发展进程中,文档 OCR 始终面临着布局解析复杂、语义逻辑对齐等核心挑战。传统模型大多采用固定的 「左上到右下」 栅格扫描顺序处理视觉 token ,这种刚性流程与人类视觉系统遵循的语义驱动型扫描模式相悖,尤其在处理含复杂公式、表格的文档时,容易因忽视语义关联导致解析误差。如何让模型像人类一样 「读懂」 视觉逻辑,成为提升文档理解能力的关键突破口。
蛋王派6 小时前
人工智能·ocr
DeepSeek-OCR-v2 模型解析和部署应用OCR(光学字符识别)作为连接物理文档与数字世界的核心技术,已广泛应用于金融票据处理、医疗病历数字化、政务档案管理等多个领域。但传统OCR模型在面对多栏论文、嵌套表格、公式密集的复杂文档时,常陷入“机械扫描、语义割裂”的困境,难以还原人类阅读的逻辑顺序。2026年1月,深度求索发布的DeepSeek-OCR-v2,以“视觉因果流”为核心创新,彻底重构了OCR的编码逻辑,在复杂版面理解上实现质的突破,同时兼顾高效推理能力。本文将从模型结构、核心改进、传统OCR对比、部署实践四大维度,全面拆解这款新一代OCR
小白狮ww10 小时前
人工智能·深度学习·机器学习·ocr·cpu·gpu·deepseek
要给 OCR 装个脑子吗?DeepSeek-OCR 2 让文档不再只是扫描如何形容现在市面上普遍的 OCR 呢?可能你已经习惯了它的「固执」——无论文档布局多复杂,它总是老老实实从左到右、从上到下扫一遍。遇到双栏论文还好,碰上跨页表格或者公式脚注混排,输出结果往往乱得让人头疼。这不是识别不准,而是理解方式出了问题。
智慧地球(AI·Earth)1 天前
架构·ocr
DeepSeek架构新探索!开源OCR 2诞生!DeepSeek架构新探索!开源OCR 2诞生!此前,DeepSeek-OCR的首次问世,已引发视觉压缩领域的广泛关注与学术探讨;而在本次迭代中,DeepSeek研发团队聚焦视觉编码模块开展核心技术升级。值得关注的是,新发布的DeepSeek-OCR 2通过引入DeepEncoder V2架构,成功实现视觉编码领域从“固定扫描”模式向“语义推理”范式的关键性转型。与DeepSeek以往的模型发布惯例一致,本次DeepSeek-OCR 2的推出,同步开源了模型本体及配套技术报告,为相关领域的学术研究与工程实
OpenBayes1 天前
人工智能·深度学习·目标检测·机器学习·大模型·ocr·gpu算力
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁在视觉语言模型(VLMs)的发展进程中,文档 OCR 始终面临着布局解析复杂、语义逻辑对齐等核心挑战。传统模型大多采用固定的「左上到右下」栅格扫描顺序处理视觉 token,这种刚性流程与人类视觉系统遵循的语义驱动型扫描模式相悖,尤其在处理含复杂公式、表格的文档时,容易因忽视语义关联导致解析误差。如何让模型像人类一样「读懂」视觉逻辑,成为提升文档理解能力的关键突破口。
PPIO派欧云1 天前
人工智能·ai·大模型·ocr·智谱
PPIO上线GLM-OCR:0.9B参数SOTA性能,支持一键部署PPIO 算力市场首发上线了 GLM-OCR 模型模板。作为一款兼具“轻量化”与“高精度”的专业级 OCR 模型,GLM-OCR 以 0.9B 的参数规模,在 OmniDocBench V1.5 基准测试中取得了 94.6 分的 SOTA 表现,并在公式识别、复杂表格解析及信息抽取等高难度场景中展现出显著优势。
东华果汁哥1 天前
ocr
【大模型 OCR】GLM-OCR 使用教程:从入门到部署概述: GLM-OCR 是智谱 AI 推出的一款轻量级、高性能的专业 OCR(光学字符识别)模型,参数仅 0.9B,却在多个文档理解基准测试中达到业界领先水平。它支持文本、表格、公式、手写体、多语言等多种复杂场景的识别,并提供灵活的部署方式,适用于从云端快速验证到本地高并发推理、再到边缘设备嵌入式运行的各类需求。 本教程将带你一步步掌握 GLM-OCR 的使用方法,涵盖 云端 API 调用 和 三种主流本地部署方案(Ollama / vLLM / SGLang),帮助你根据实际业务场景选择最适合的方式。
h7ml1 天前
java·机器人·ocr
查券返利机器人的OCR识别集成:Java Tesseract+OpenCV优化图片验证码的自动解析方案大家好,我是 微赚淘客系统3.0 的研发者省赚客!微赚淘客系统3.0 的查券返利机器人在对接部分电商平台时,需自动处理登录或查询接口返回的图片验证码(如4位数字+字母组合)。为实现无人值守自动化,我们基于 Tesseract OCR + OpenCV 图像预处理 构建本地化识别模块,避免依赖第三方付费 API。本文展示从图像下载、降噪增强到文字识别的完整 Java 实现。
Funny_AI_LAB1 天前
人工智能·计算机视觉·语言模型·ocr
GLM-OCR发布:性能SOTA,超越PaddleOCR-VL-1.5?前有通过视觉压缩,实现高效、结构化的文档理解的DeepSeek-OCR2,后有高精度、鲁棒的多任务文档解析PaddleOCR-VL-1.5,而最近智谱AI发布最新GLM-OCR一款轻量级专业光学字符识别模型。它凭借“小尺寸、高精度”的特点,在复杂文档解析领域达到了当前最佳性能,并大幅降低了部署和使用成本。 开源地址 Github:https://github.com/zai-org/GLM-OCR Hugging Face:https://huggingface.co/zai-org/GLM-OCR 在线
码科智能2 天前
ocr
OCR在真实场景“翻车”?面对跨页表格、密集表格、扭曲文档等难题,这个OCR文档解析工具太6了!真实场景下OCR效果,原文链接:全能OCR工具在文档解析真实应用场景中,我们面对的已不再是简单的文本文档,有大量数据在PDF、扫描件、图片、网页等非结构化文档中。
ejinxian2 天前
ocr·模型
专业级模型 GLM-OCR智谱宣布正式发布并开源一款轻量的专业级 OCR 模型 GLM-OCR,主打“小尺寸、高精度”。其核心亮点如下
susu10830189112 天前
ocr
本地运行DeepSeek-OCR-2 识别图片文字github下载地址: https://github.com/deepseek-ai/DeepSeek-OCR-2
铁蛋AI编程实战2 天前
开源·ocr·vllm
DeepSeek-OCR2:开源 OCR 新王者完整部署教程(vLLM+Transformers 双接口 + 动态分辨率 + 文档批量处理)入门配置(个人/测试,支持动态分辨率基础功能):CPU≥4核、内存≥16G、GPU(NVIDIA,计算能力≥7.0)显存≥8G,SSD剩余≥20G(存储模型+数据)
Coovally AI模型快速验证2 天前
人工智能·机器学习·计算机视觉·目标跟踪·自动驾驶·ocr
“看起来像世界”≠“真世界”!WorldLens全维度解构自动驾驶世界模型近年来,随着生成式AI技术的突破,世界模型(World Models) 已成为自动驾驶与具身智能领域的核心研究方向。从文本直接生成驾驶视频,到可控的4D动态场景合成,当前模型已经能够产出视觉上足以“以假乱真”的驾驶画面。
独自归家的兔3 天前
ocr
DeepSeek-OCR 2:视觉因果流模型官方论文解读总结这几日在研究 DeepSeek-OCR 2 的内容,发布的论文也看完了,正好写一写。原文ppt我也上传资源并绑定到本文了。
DisonTangor3 天前
架构·开源·ocr
智谱开源基于GLM-V编码器-解码器架构的多模态OCR模型——GLM-OCRGLM-OCR是一款基于GLM-V编码器-解码器架构的多模态OCR模型,专注于复杂文档理解。该模型通过引入多令牌预测(MTP)损失和稳定的全任务强化学习,显著提升了训练效率、识别准确率和泛化能力。其核心架构包含基于大规模图文数据预训练的CogViT视觉编码器、采用高效令牌降采样的轻量级跨模态连接器,以及GLM-0.5B语言解码器。结合基于PP-DocLayout-V3的两阶段流程(版面分析+并行识别),GLM-OCR能在各类文档布局场景中提供稳定优质的OCR性能。
Elwin Wong3 天前
人工智能·大模型·llm·ocr·deepseek
浅析DeepSeek-OCR v1&v2时隔几个月,DeepSeek 又发布了 DeepSeek-OCR-2,与 v1 一样极具创新,在端到到的文档解析 VLM 中达到了 SOTA 的效果,并且极其高效,最多只需要 1120 个视觉 token,在这样的高效的输入下能达到最好的效果,确实不容易。那么,本文就趁这个机会把 v1 和 v2 放一起简单聊聊两者的一些架构、创新点等等。
一个无名的炼丹师4 天前
python·大模型·ocr·多模态·rag
多模态RAG系统进阶:从零掌握olmOCR与MinerU的部署与应用摘要:在构建企业级多模态RAG(检索增强生成)系统时,如何将非结构化的PDF文档高质量地转换为结构化的Markdown数据,是决定系统最终检索效果的“生死门”。本文将深入探讨2025年最前沿的两种解决方案:AI2开源的基于VLM的olmOCR,以及一站式开源工具链MinerU。我们将从理论原理、本地环境搭建、GPU推理加速、API调用实战到进阶的“元素感知”混合解析方案,进行全链路的深度拆解。
SmartBrain4 天前
人工智能·算法·语言模型·架构·aigc·ocr
OCR 模型在医疗场景的选型研究随着医疗信息化进程的深入推进,电子病历识别和医学影像报告分析等 OCR 应用需求日益增长。然而,医疗数据的隐私敏感性和合规要求使得本地化部署成为必然选择。本研究聚焦 Qwen3-VL、DeepSeek OCR 等主流大厂模型在医疗场景下的准确率表现,为医疗机构的技术选型提供决策依据。
DisonTangor5 天前
人工智能·开源·aigc·ocr·deepseek
DeepSeek-OCR 2: 视觉因果流基于Huggingface transformers库在NVIDIA GPU上进行推理。测试环境要求为python 3.12.9 + CUDA11.8: