ocr

AI 菌11 小时前
人工智能·算法·计算机视觉·大模型·ocr
DeepSeek-OCR 解读大型语言模型(LLMs)处理长文本时面临计算量随序列长度二次增长的难题,而视觉模态可作为文本信息的高效压缩载体——单张含文本图像能以远少于数字文本的令牌承载丰富信息。现有视觉语言模型(VLMs)的视觉编码器存在令牌过多、激活内存大、部署复杂等缺陷,且现有端到端OCR模型未解决“解码特定文本所需最少视觉令牌”这一关键问题,缺乏对视觉-文本压缩比的系统探索。
njsgcs2 天前
ocr
Tesseract+easyocr 混合策略ocrTesseract识别速度很快0.2s 但是输出都是单个字easyocr能输出一段话可是要20s有没有直接识别短语又快的方法?我不知道
爱吃饼干的熊猫4 天前
ocr
告别繁琐管道:LightOnOCR-2-1B 如何以 1B 参数实现极致 OCR 性能LightOnOCR-2-1B:10 亿参数的轻量级 OCR 革命,速度与精度双杀OCR 进入“端到端 + 轻量化”新纪元
算力魔方AIPC4 天前
arm开发·人工智能·ocr
DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 与 x86 平台交付可规模化的高性能 OCR 能力随着文档识别技术的不断成熟,OCR 技术已从实验性阶段逐步走向实际业务场景,在政务、金融、制造、物流等多个行业中得到广泛应用。然而,在规模化落地过程中,企业逐渐意识到:制约 OCR 应用进一步扩展的核心因素,已不再是模型准确率本身,而是整体推理性能与部署成本。
souyuanzhanvip5 天前
ocr·实用工具
STranslate v2.0.4:Windows 离线 OCR 划词翻译工具STranslate v2.0.4 是专为 Windows 用户打造的免费开源翻译 OCR 工具,秉持 “即开即用、即用即走” 的核心理念,整合划词翻译、离线 OCR 等实用功能,支持多翻译源与快捷键操作,高效解决日常办公、学习中的跨语言沟通和文字识别需求,是 Windows 平台下兼顾便捷性与实用性的优质工具。
袁煦丞 cpolar内网穿透实验室5 天前
ocr·远程工作·内网穿透·cpolar·办公搭档
告别付费 OCR!PaddleOCR-VL 秒识别手写、公式。cpolar内网穿透实验室第 756 个成功挑战软件名称:PaddleOCR-VL操作系统支持:Windows(主流版本均兼容,无需复杂配置)软件介绍:PaddleOCR-VL 是百度飞桨推出的视觉 - 语言多模态文档解析模型,相比传统 OCR,它不仅能识别印刷体,还能精准搞定手写体、数学公式、表格等复杂内容,参数仅 0.9 亿,低配电脑也能流畅运行;搭配整合包,新手双击脚本就能启动,零编程基础也能上手。
德育处主任Pro5 天前
docker·ocr·群晖·nas
『NAS』在群晖部署OCR文字识别工具-TrWebOCR点赞 + 关注 + 收藏 = 学会了整理了一个NAS小专栏,有兴趣的工友可以关注一下 👉 《NAS邪修》
miaobinfei5 天前
pdf·ocr·word
pdf转word,图片文字转word(使用OCR工具)一、开发环境Pycharm2025,python解析器3.11二、windows本地安装依赖包(1)Poppler下载地址
熊明才6 天前
ocr·vllm
DeepSeek-OCR VLLM 环境配置指南本文记录了在离线服务器上搭建 DeepSeek-OCR 推理环境的完整过程,包括依赖安装、版本兼容问题排查及解决方案。
兔兔爱学习兔兔爱学习6 天前
ocr
创建CUDA11.8环境部署DeepSeek-OCR完整部署步骤:Linux下保留系统CUDA12.6,通过Conda创建CUDA11.8环境部署DeepSeek-OCR 核心逻辑:利用Conda环境隔离性,在新环境中安装CUDA11.8 toolkit,系统CUDA12.6完全不受影响,所有依赖均在隔离环境内安装。
alvinToffler7 天前
ocr·文字识别·表格识别·表格按列选择
kkocr简单好用的ocr文字表格识别工具KK-OCR 是一款图形化 OCR 文字表格识别工具,内置OCR模型,完全离线,支持文字识别、表格识别、批量处理等功能。软件采用左右布局设计,左侧为文件列表,右侧为图片预览和识别结果,操作直观便捷。 下载地址:kkocr_setup.exe 功能特性 🔍 核心识别功能 文字识别(OCR):支持多种图片格式的文字提取 表格识别:智能识别图片中的表格结构,生成 HTML 格式输出 批量处理:支持同时处理多张图片,带有进度提示 📁 多方式输入支持 文件选择:支持选择单个或多个图片文件 拖拽上传:支持直接拖拽
秋氘渔8 天前
ocr·ollama·deepseek-ocr
使用Ollama部署DeepSeek-OCR模型:从零开始的完整指南目录一、什么是Ollama和DeepSeek-OCR1.1 Ollama简介1.2 DeepSeek-OCR简介
weixin_462446238 天前
ocr·deepseek-ocr
DeepSeek-OCR:下一代智能文档识别与转换技术详解(复杂表格精准解析)DeepSeek-OCR是一个基于深度学习的先进文档识别系统,能够准确识别文本内容并保持原文档的格式结构。本文将详细介绍DeepSeek-OCR的完整部署过程、代码实现、使用方法和最佳实践,为开发者提供一站式的技术参考。
山顶夕景8 天前
大模型·llm·ocr·多模态·文档智能·vlm
【VLM】Format Decoupled Reinforcement Learning for Document OCR【文档智能进展】讲的故事是格式化文本(公式、表格等)比纯文本熵值高一个数量级,导致模型输出不确定性大、解析准确率低,所以搞了个应对思路。工作在:Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR,https://arxiv.org/pdf/2601.08834,
熊明才9 天前
ai·ocr
modelscope 上PaddleOCR-VL 部署(2026年1月17日亲测可用)创建时间: 2026-01-16 环境: ModelScope PAI-DSW 免费实例orStep 1: Environment Activation
张3蜂9 天前
百度·开源·ocr
PaddleOCR:全面解析百度开源的OCR王者目录一、概述1.1 什么是PaddleOCR?1.2 核心优势二、架构设计2.1 三大核心模块2.2 文本检测模型
AI人工智能+9 天前
深度学习·ocr·表格识别
表格识别技术:实现复杂表格内容的精准解析与表格结构的版面还原,推动档案管理从数字化存储向智能化服务转型档案数字化进程中,财务报表、统计台账、人事登记表等包含大量复杂表格的资料,一直是成本最高、效率最低的“硬骨头”。传统OCR识别结果支离破碎,表格结构尽失,导致大量数字化档案沦为不可检索、不可分析的“死数据”。如何突破这一瓶颈,释放档案深层价值?一种专注于复杂表格内容的精准解析与表格结构的版面还原的智能表格识别技术,正重新定义档案数字化的质量标准。
天聚数行10 天前
ocr·api接口·天聚数行
OCR+翻译二合一!天聚数行图片翻译API实测体验在全球化信息交流日益频繁的今天,我们常常会遇到包含外语文字的图片——外文菜单、海外教材、跨国文档、社交媒体截图……如何快速准确地理解这些图片中的文字内容?传统的“截图+手动输入+翻译”流程繁琐且效率低下。天聚数行TianAPI 推出了「图片翻译API」,集OCR文字识别与多语言翻译于一体,只需上传一张图片,即可自动识别其中的文字并翻译为目标语言,真正实现“看图即懂”。
旗讯数字10 天前
ocr
角标识别 + 系统对接一体化 旗讯 OCR 纸质报告数字化解决方案在制造业、化工、医疗等领域,检测报告作为质量管控、合规验收的核心凭证,承载着海量关键数据,包括技术参数、检测结果、单位符号及专业标注等。传统人工录入模式不仅效率低下、误差率高,还难以应对报告中复杂的角标格式(如下标、上标)及多系统数据互通需求。旗讯OCR凭借定制化场景训练模型与全链路技术方案,精准攻克检测报告识别痛点,实现角标智能修正、数据结构化提取与ERP、MES、LIMS等业务系统的无缝对接,为企业数字化转型注入核心动力。
wxl78122710 天前
pdf·ocr·图文并茂·cognee
基于Cognee实现PDF图文并茂解析与检索的实践方案在各类文档处理场景中,文本与图表结合的内容十分常见,单纯的文本解析无法满足完整的信息提取需求。基于OCR/PDF解析接口和Cognee的API规范,可搭建一套通用的PDF图文解析与检索方案,以下是详细的实践流程。