ocr

源之缘-OFD先行者9 小时前
ocr
C# 实现 OCR 转双层 OFD,字符坐标与原图 1:1 精准匹配前言 双层 OFD 作为我国自主文档标准,以 “图像层 + 文本层” 结构广泛应用于政务公文、电子归档、档案数字化等场景,兼具视觉还原与文本检索能力,适配国产化生态。与双层 PDF 相比,OFD 无国外专利依赖,安全合规性更强,中文排版还原更精准,文件体积小、解析效率高;而 PDF 存在格式兼容壁垒与数据安全风险,跨平台显示及中文排版易出偏差,OFD 已成为政企构建自主可控文档体系的优选。
liulanba9 小时前
ocr
OCR技术全流程详解:从原理到实现本文以实际项目代码为例,深入讲解OCR(光学字符识别)技术的原理、实现、训练、验证和推理的全流程。每个环节都有详细的代码解析和原理说明。
anda01091 天前
ocr
DeepSeek-OCR:用“一张图“压缩万字长文,大模型记忆的新思路一张图真能抵得上千言万语?DeepSeek-OCR给出了一个令人兴奋的答案。最近,DeepSeek-AI 团队发布了一项名为 DeepSeek-OCR 的新技术,它不仅在 OCR(光学字符识别)任务上表现出色,更提出了一种全新的思路:用图像作为文本的高效压缩媒介。这项技术看似只是“读图识字”,实则可能撬动大模型处理长上下文、构建记忆机制、甚至实现“无限上下文”的关键一步。
漏刻有时1 天前
学习·微信小程序·ocr
微信小程序学习实录12:wx.serviceMarket.invokeService接口OCR识别营业执照和银行卡wx.serviceMarket.invokeService 接口,这是微信小程序服务市场的核心调用 API,以下从专业角度全面解析其使用方式、核心参数、代码中的实践要点及关键特性:
沉下去,苦磨练!2 天前
ocr
UI的纯视觉方案OCRhttps://gitee.com/lc_monster/rapid-ocr-javahttps://gitee.com/lc_monster/rapid-ocr-java
njsgcs3 天前
人工智能·python·yolo·ocr·vlm
基于vlm+ocr+yolo的一键ai从模之屋下载模型https://www.bilibili.com/video/BV1fYvZBUET8还是得给他帮亿把 ,7步尚且如此,做个mod几十步,我不敢想
Damon小智4 天前
人工智能·ai·ocr·agent·火山引擎
【TextIn大模型加速器 + 火山引擎】跨国药企多语言手册智能翻译系统设计与实现在全球化医药行业中,产品说明书的多语言版本管理一直是令人头疼的难题。一款新药从研发到上市,需要在不同国家提交数十种语言的说明书,而且每次配方调整、适应症更新,都需要同步修改所有语言版本。传统流程中,翻译公司接到一份200页的英文说明书,需要先人工录入文字,再交给翻译团队逐页处理,最后校对排版,整个周期往往长达一周甚至更久。本文将展示如何利用TextIn的多语言解析能力与火山引擎的Agent编排平台,将这个流程压缩到4小时以内。
机器学习算法与Python实战5 天前
ocr
我写了一个OCR测试工具:DeepSeekOCR、PaddleOCR 和 混元OCR大家好,我是 Ai 学习的老章最近的 OCR 大模型我都做了本地部署和测试,还写了一个 API 统一对接这三个模型
week_泽5 天前
笔记·学习·ocr
OCR学习笔记,调用免费百度api百度智能云-云智一体深入产业搜OCR文字识别新建应用这里调用之后记得关掉,免费的有额度,这里每个月有免费的额度,付费的话,50块1万次吧
week_泽5 天前
笔记·ocr
离线OCR笔记及代码Tesseract-OCR下载和安装,Python-OCR使用_tesseract-ocr python 下载-CSDN博客
njsgcs5 天前
ocr·vlm
ai自己制作mod2 ocr vlm识别 模型页面点击打开模型页面ai自己制作mod2 ocr vlm识别 模型页面点击打开模型页面_哔哩哔哩_bilibiliocr识别不了点赞图标,不然点赞收藏一气喝成就能下载模型了
2501_946213905 天前
java·经验分享·笔记·pdf·github·ocr·开源软件
Zettlr(科研笔记) v4.0.0 中文免费版Zettlr是款适合写作者和研究人员使用的Markdown编辑器,免费开源,功能简洁,具备Markdown所有基本功能,内置各种运算符,还可以调用计数器,可以完美替代Word和收费的文字处理器。
todoitbo5 天前
人工智能·ocr·火山引擎·工作流·dify·textln·企业智能文档
【TextIn大模型加速器 + 火山引擎】基于 Dify 构建企业智能文档中枢:技术文档问答+合同智审+发票核验一站式解决方案🎏:你只管努力,剩下的交给时间🏠 :小破站本文将从企业实际痛点出发,详细介绍如何利用 TextIn 通用文档解析能力 + 火山引擎豆包大模型 + Dify 工作流编排,构建一套覆盖技术文档问答、合同风险审核、发票智能核验的企业级文档处理中枢。
☛挣钱给老婆买包6 天前
ocr
OCR记录lstm时间轴: t=1 t=2 t=3 … t=T 输入: x₁ —> x₂ —> x₃ —> … —> x_T ↓ ↓ ↓ ↓ L1: h₁¹ —> h₂¹ —> h₃¹ —> … —> h_T¹ ↓ ↓ ↓ ↓ L2: h₁² —> h₂² —> h₃² —> … —> h_T²
机器学习算法与Python实战6 天前
人工智能·ocr
DeepSeek-OCR本地部署(1):CUDA 升级12.9,不重启,教程大家好,我是 Ai 学习的老章DeepSeek-OCR 开源有段时间了,我曾详细测试过DeepSeek 最新开源 OCR 模型,实测,也推荐过基于它的 web 端应用:一个强大的开源 OCR 工具,基于 DeepSeek OCR,还有一个桌面客户端:DeepSeek-OCR 桌面客户端,Windows 用户优先体验
AI人工智能+6 天前
大模型·ocr·文本信息抽取
融合OCR与大模型的智能文本信息抽取技术,推动合同管理从静态文档向智能化商业载体的转型在动辄上百页的并购合同或堆积如山的供应链协议中,法务与业务人员依然耗费大量精力进行“人工找茬”——逐字比对金额、日期、责任条款等关键信息。这不仅效率低下,更因视觉疲劳和文本复杂性而埋下风险隐患。如今,融合了先进OCR与大模型的智能文本信息抽取技术,正为合同比对系统装上“数字大脑”与“锐利双眼”,实现从“浏览”到“洞察”的质变,核心便在于对关键字段内容的精准锁定与深度解析。
nvd117 天前
llm·ocr
PDFLoader 中的 OCR 文字提取实现详解默认的 langchain_community.document_loaders.PyPDFLoader 虽然支持 extract_images 参数,但在某些场景下,它并不会自动将 OCR 识别后的文字合并到 page_content 中。为了确保能够百分之百提取出 PDF 页面中嵌入的图像文字(如电路图标签、截图文字等),我们采用了 Mix-in (混合) 模式:在保留原生文本层提取能力的同时,手动插入自定义的 OCR 处理流程。
私人珍藏库8 天前
ocr
[Windows] 天若ocr开源版6.1-增加openai兼容接口[Windows] 天若ocr开源版6.1-增加openai兼容接口 链接:https://pan.xunlei.com/s/VOhZip2vdw8LbSmV6DMe48WiA1?pwd=wjip#
li三河9 天前
人工智能·ocr·paddlepaddle
paddlepaddle-gpu3.0.0进行ocr训练1、服务器中实用NVIDIA A100并且装有cuda 12.4版本,而paddlepaddle-gpu比较接近时cuda 12.3版本。
SYC_MORE11 天前
人工智能·pdf·ocr
无需 OCR,多模态大模型如何“读懂” PDF?——基于 GLM-4V-Flash 的智能文档解析原理剖析关键词:PDF 智能解析|多模态大模型|零 OCR 方案|文档理解|视觉语言模型 核心观点:当传统 OCR 遇到瓶颈,多模态大模型提供了一条更鲁棒、更语义化的 PDF 理解新路径。