动手RAG: ocr调研

对于rag应用来说,文档是第一步,对于部分扫描件的文件来讲,主要就需要OCR.

OCR

还有诸如

OCR包含几类,

  • 自然场景中的文字识别,文档中的文字识别
  • pipeline: 文本检测,文本识别,文档结构化识别(版面分析,表格识别,关键信息提取)


表格识别

部署

pdf解析

文档解析

参考

相关推荐
星空的资源小屋1 小时前
Text Grab,一款OCR 截图文字识别工具
python·django·ocr·scikit-learn
武子康14 小时前
AI研究-120 DeepSeek-OCR 从 0 到 1:上手路线、实战要点
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
亚林瓜子15 小时前
在amazon linux 2023上面通过Fedora 36软件仓库源安装tesseract5
linux·运维·服务器·ocr·tesseract·amazon·fedor
PythonFun1 天前
OCR图片识别翻译工具功能及源码
python·ocr·机器翻译
用什么都重名1 天前
DeepSeek-OCR 深度解析
人工智能·ocr·deepseek-ocr
lvnacp1 天前
Qwen3-VL微调自定义OCR任务
ocr
weixin_437988122 天前
信创模盒 ModelHub XC|高效适配最新国产全模态文字识别模型 DeepSeek-OCR
ocr
亚林瓜子2 天前
SpringBoot中使用tess4j进行OCR(在macos上面开发)
java·spring boot·macos·ocr·lstm·tess4j
咕咚-萌西2 天前
DeepSeek-OCR
人工智能·深度学习·ocr
仙人掌_lz4 天前
Hybrid OCR-LLM框架用于在大量复杂密集企业级文档信息提取
人工智能·ocr·文档解析