第6节:OCR文本错漏频发?结合LLM纠错,让图像文本也能精确使用

RAG与Agent性能调优:6.OCR文本错漏频发?结合LLM纠错,让图像文本也能精确使用

Gitee地址:https://gitee.com/agiforgagaplus/OptiRAGAgent

文章详情目录:RAG与Agent性能调优

上一节:第5节:动态切片策略与重叠机制提升RAG召回率

下一节:第7节:图像切分不合理,文本矫正和版面区域检查,保证信息不完整且不冗余

错误类型

OCR识别错误通常可分为以下几种:

  • 字符识别错误
  • 文字遗漏
  • 多次重复
  • 格式混乱
  • 特殊符号识别错误

这些错误往往源于以下几个方面:

  • 图像质量不佳
  • 字体样式复杂
  • 背景干扰
  • OCR算法限制

传统解决方案的局限性

传统的OCR优化方案主要包括

  • 图像预处理
  • 后处理规则
  • 模型微调

结合LLM进行文本纠错新思路

  • 充分发挥大语言模型能力
  • OCR+大语言模型协同流程

我们可以将整个OCR处理流程分为两个阶段:

  • OCR识别阶段:使用PaddleOCR5其对图像进行识别,得到初步的文本结果
  • LLM纠错阶段:将OCR输出的文本送入大语言模型,由其进行语义级别的纠错和优化

实操

https://www.paddlepaddle.org.cn/install/quick?docurl=undefined

复制代码
# 运行 PP-OCRv5 推理
! paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png --use_doc_orientation_classify False --use_doc_unwarping False --use_textline_orientation False 

# 运行 PP-ChatOCRv4 推理前,需要先获得千帆API Key
# paddleocr pp_chatocrv4_doc -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png -k 驾驶室准乘人数 --qianfan_api_key your_api_key --use_doc_orientation_classify False --use_doc_unwarping False 

# 查看 "paddleocr ocr" 详细参数
# paddleocr ocr --help

# PP-OCRv5 示例
from paddleocr import PaddleOCR
# 初始化 PaddleOCR 实例
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False)
# 对示例图像执行 OCR 推理 
result = ocr.predict(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
# 可视化结果并保存 json 结果
for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")
相关推荐
GISer_Jing17 小时前
从入门到落地:前端开发者的AI Agent全栈学习路线
前端·人工智能·ai编程
梦想画家17 小时前
ToolGuard:让AI Agent严格遵守企业规则的确定性合规框架
人工智能·toolguard
旺财矿工17 小时前
小白速通:OpenClaw 2.6.6 Win11 本地化部署完整教程
人工智能·windows·openclaw·龙虾·一键部署小龙虾
默 语17 小时前
基于 Spring Boot 3 + LangChain4j 快速构建企业级 AI 应用实战
人工智能·spring boot·后端
weixin_4462608517 小时前
赋能未来生产力:AI技术如何重塑工作流与产业格局的宏观纲要
人工智能
风落无尘17 小时前
第一章《废土》完整学习资料
人工智能
CCC:CarCrazeCurator18 小时前
DeepSeek V4 大模型技术评估
人工智能
水如烟18 小时前
孤能子视角:重看“劳动,创造美“
人工智能
AI产品测评官18 小时前
2026年AI招聘工具深度测评:世纪云猎与递航AI技术路线与应用场景全景解析
人工智能
AI医影跨模态组学18 小时前
如何将多模态CT深度学习特征与肿瘤微环境中的免疫相关生物学过程建立关联,并进一步解释其与非小细胞肺癌新辅助免疫化疗后的pCR机制联系
人工智能·深度学习·论文·医学·医学影像·影像组学