ocr

明知道的博客3 天前
python·ocr·deepseek·deepseek-ocr
解决WSL环境下DeepSeek-OCR运行时内存不足问题在WSL环境中运行DeepSeek-OCR时出现以下错误:这是由于WSL默认分配的内存不足以加载大型模型导致的。
模型启动机4 天前
人工智能·ai·大模型·ocr·deepseek
DeepSeek OCR vs Qwen-3 VL vs Mistral OCR:谁更胜一筹?在数字化转型加速推进的当下,企业对高效AI文档处理系统的需求日益迫切。然而,面对市场上多款功能相近的光学字符识别(OCR)模型,开发人员在选型过程中往往面临决策困境。模型在处理速度、识别精度、成本控制等关键维度的表现,直接影响文档处理系统的整体效能与业务落地价值,因此筛选兼具高效性与适配性的模型成为核心诉求。
AI人工智能+4 天前
pdf·ocr·文档抽取
文档抽取技术结合OCR、NLP和计算机视觉,能智能提取PDF、扫描件等版式文档中的结构化数据在数字化办公时代,PDF、扫描图像等版式固定文档承载着海量的关键信息。然而,这些文档的“只读”特性使其内部的数据如同被锁在坚固的盒子中,难以被直接编辑、分析和利用。文档抽取技术的出现,正是打开这些“数据盒子”的钥匙。它结合了OCR(光学字符识别)、自然语言处理(NLP)和计算机视觉(CV)等人工智能技术,能够智能地识别、理解和提取版式文档中的结构化信息。本文将深入探讨这项技术在各类版式软件中的核心应用。
旗讯数字4 天前
ocr
纸质手写表格二次录入效率低?旗讯 OCR 技术方案与行业落地实践在制造业 MES 系统、金融核心系统、政务 OA 等场景中,纸质手写登记表的数据采集一直是数字化转型的 “卡脖子” 环节。传统 “人工转录” 模式不仅效率低下,还存在数据误差率高、系统对接难等问题。本文将从技术架构、核心算法、集成方案三个维度,详解旗讯 OCR 如何解决手写登记表识别痛点,并结合多行业落地案例,为技术选型与项目实施提供参考。
Olafur_zbj5 天前
数据库·pdf·ocr
【AI】使用OCR处理pdfpdf如果是扫描件,没有办法发送给LLM比如gemini去读取,需要使用OCR处理。需要:安装方法和路径: https://pdf2image.readthedocs.io/en/latest/installation.html poppler也在上个路径中可以找到
码二哥5 天前
ocr·fastapi·vllm·豆包·deepseek-ocr
借助豆包将vllm推理deepseek-ocr改成web服务访问本次的试验环境:查看远程服务器上cuda版本号已经安装了deepseek-ocr, vllm本次的需求是,希望将通过vllm推理deepseek-ocr的方式,改成web方式。 提高效率。 免的每次请求,都得重新加载deepseek-ocr模型。
还是码字踏实5 天前
金融·ocr·图像预处理·bm25页面预检索·紧凑型视觉语言模型vlm·多阶段金融文档解析框架
基于BM25的金融文档智能解析:基于OCR和紧凑型视觉语言模型的多阶段字段提取技术深度解读在金融科技领域,中小企业(SMB)的财务文档处理一直是一个巨大的挑战。监管机构、审计人员和金融机构每天需要从海量的年度报告、财务报表和纳税申报表中提取结构化信息,用于合规检查、信用评估和风险管理。然而,这些文档往往存在以下痛点:
旗讯数字5 天前
大数据·金融·ocr
旗讯 OCR 技术解析:金融行业手写表格识别方案与系统集成实践在金融行业数字化转型进程中,手写表格数据结构化是制约业务效率的关键痛点 —— 从银行报销单的金额录入,到基金公司客户投入表的信息统计,再到保险公司线下回访记录的归档,传统人工处理模式不仅效率低下(单张表格处理超 30 分钟),且误差率高达 5%-8%,更无法直接对接 ERP、CRM 等核心业务系统。本文将从技术原理、场景落地、系统集成三个维度,详细解析旗讯 OCR 如何针对性解决金融手写表格识别难题。
萧鼎5 天前
开发语言·python·ocr
Python PyTesseract OCR :从基础到项目实战在 OCR(Optical Character Recognition)领域,主流方案包括:其中 Tesseract OCR 是 Google 维护的开源文字识别引擎,免费、稳定、支持 100+ 种语言,广泛用于:
七十二计6 天前
ocr·音视频
高效视频抽帧与文字识别(OCR)技术体系详解好的!下面是一篇超过 5000 字的技术长文,主题为:在现代信息系统中,视频已经成为人类获取信息的核心媒介之一,从监控、教育、交通到社交娱乐,各类场景每天产生海量的视频数据。然而视频的核心困难在于:信息被埋藏在时序连续的图像流中,难以直接结构化应用。
kevin 16 天前
运维·自动化·ocr
财报处理自动化,财报OCR识别录入系统将非结构化报表转化为可分析数据专业的报表OCR识别录入系统通过高精度识别、智能模板和自动逻辑校验,将非结构化报表转化为结构化数据,极大提升金融机构的数据处理效率与准确性。
AI人工智能+6 天前
人工智能·计算机视觉·nlp·ocr·文档抽取
文档抽取技术:通过OCR、NLP和机器学习技术,将非结构化的合同、发票等文档转化为结构化数据在商业和科研的日常运营中,我们被海量的非结构化文档所包围:合同、发票、简历、研究报告、医疗记录等。这些文档承载着重要信息,但其格式自由、布局多变,使得计算机难以直接理解和处理。文档抽取系统的核心使命,就是像一位训练有素的专家,从这片信息的海洋中,精准地“捕捞”出我们关心的特定内容——我们称之为关键字段。
ASKED_20197 天前
人工智能·深度学习·ocr
大模型 + 字形理解:Glyph-OCR 带来的 OCR 新范式在大名鼎鼎的DeepSeek OCR工作发表同期,智谱AI也发表了一篇OCR相关的工作,对于DeekSeek而言,这篇风头被掩盖,属于学术界汪峰了😏,闲言少叙,下面正题: 这篇工作的侧重点和DeepSeek的工作还是有很大的不同的:让模型先“看懂字形”,再让语言模型推理文字本身。 GlyPh-OCR 更像是一次针对复杂字形的“硬解”。它把文字的“样子”编码下来,让模型真正理解笔画、结构、字体细节,再结合上下文恢复成最终文字。 下面将从技术原理、系统架构、优势、不足及应用场景几个方面,完整解读 GlyPh
翔云 OCR API8 天前
ocr
表格识别接口技术解析:从传统OCR到智能识别的跃迁一、传统OCR的局限与破局之道1.1 传统方案的技术瓶颈早期表格识别依赖模板匹配和固定规则,存在三大核心问题:
EkihzniY8 天前
ocr
身份三要素认证:筑牢线上医疗人脸识别的安全根基线上医疗的普及,让远程问诊、在线购药等服务更便捷,而身份真实性核验是保障诊疗安全的核心前提。身份三要素(姓名、证件号、手机号)实名认证与人脸识别技术的结合,为线上医疗身份认证提供了可靠解决方案。
DARLING Zero two♡9 天前
数据库·rust·ocr
用Rust构建一个OCR命令行工具最近我在做一个小项目,需要从图像中提取文本。虽然有很多现成的解决方案,但我想用Rust来实现一个命令行工具,这样可以更好地控制整个过程。这篇文章会分享我如何用Rust和Tesseract OCR引擎构建一个简单的OCR工具。
余俊晖9 天前
人工智能·分类·ocr
文档图像旋转对VLM OCR的影响及基于Phi-3.5-Vision+分类头的文档方向分类器、及数据构建思路假设文档的存在方向旋转,那么会进一步的干扰VLM进行OCR的性能,下面看一个预处理方案,解决文档旋转干扰OCR问题,并进行一些评估,方法较为简单,快速看一下。
翔云 OCR API9 天前
开发语言·人工智能·python·计算机视觉·ocr
NFC护照鉴伪查验流程解析-ICAO9303护照真伪查验接口技术方案发展背景:在全球化日益加深的今天,跨境出行的安全与便捷成为了人们关注的焦点。随着电子护照(ePassport)在多个国家和地区得到广泛使用,其内嵌芯片存储的持证人生物特征数据及签发机构的数字签名信息为我们的旅行带来了更高的安全性与便利性。而基于NFC技术与OCR识别的自动化证件识读方案,更是将这一过程推向了新的高度。
大模型实验室Lab4AI9 天前
人工智能·ocr·deepseek-ocr
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理当“8000行代码手搓ChatGPT”的热度还未褪去,大模型领域又迎来新惊喜——DeepSeek团队于10月20日开源的 DeepSeek-OCR,以“上下文光学压缩”为核心突破,重新定义了OCR(光学字符识别)的效率边界。这款仅30亿参数量的模型,不仅能以100个视觉token超越传统模型256个token的性能,更在单张A100-40G显卡上实现每日20万页文档处理能力,为长文本压缩与大模型效率优化提供了全新思路。
AI人工智能+12 天前
nlp·ocr·文档抽取
从“海量文书”到“精准数据”:文档智能抽取重塑车险核心竞争力在传统的车险业务流程中,充斥着大量的非结构化文档:理赔申请书、事故证明、驾驶证、行驶证、维修清单、医疗报告、交警定责书……这些纸质或电子图片格式的文件,曾是保险从业者案头最繁重的工作负担。员工需要手动翻阅、查找、录入关键信息,整个过程不仅效率低下,还极易出错。