动手RAG: ocr调研

对于rag应用来说,文档是第一步,对于部分扫描件的文件来讲,主要就需要OCR.

OCR

还有诸如

OCR包含几类,

  • 自然场景中的文字识别,文档中的文字识别
  • pipeline: 文本检测,文本识别,文档结构化识别(版面分析,表格识别,关键信息提取)


表格识别

部署

pdf解析

文档解析

参考

相关推荐
沉到海底去吧Go16 小时前
【行驶证识别成表格】批量OCR行驶证识别与Excel自动化处理系统,行驶证扫描件和照片图片识别后保存为Excel表格,基于QT和华为ocr识别的实现教程
自动化·ocr·excel·行驶证识别·行驶证识别表格·批量行驶证读取表格
撞南墙者21 小时前
如何让AI自己检查全文?使用OCR和LLM实现自动“全文校订”(可DIY校订规则)
人工智能·ocr
沉到海底去吧Go2 天前
【图片识别改名】如何批量将图片按图片上文字重命名?自动批量识别图片文字并命名,基于图片文字内容改名,WPF和京东ocr识别的解决方案
ocr·wpf·图片识别改名·图片识别重命名·图片内容改名
TextIn智能文档云平台3 天前
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
人工智能·自然语言处理·ocr·pdf解析·textin·复杂文档解析
mulannanlu3 天前
免费开源Umi-OCR,离线使用,批量精准!
ocr
凌康ACG4 天前
易语言使用OCR
c++·yolo·c#·ocr·易语言
开开心心就好4 天前
小巧实用,Windows文件夹着色软件推荐
java·开发语言·前端·决策树·c#·ocr·动态规划
郑知鱼5 天前
【拥抱鸿蒙】HarmonyOS NEXT实现双路预览并识别文字
华为·ocr·harmonyos·鸿蒙·移动端·鸿蒙next·ohos
rick_grace7 天前
使用 pytesseract 构建一个简单 OCR demo
ocr
开开心心就好7 天前
高效合并 Excel 表格实用工具
开发语言·javascript·python·qt·r语言·ocr·excel