RAG与Agent性能调优:6.OCR文本错漏频发?结合LLM纠错,让图像文本也能精确使用
Gitee地址:https://gitee.com/agiforgagaplus/OptiRAGAgent
文章详情目录:RAG与Agent性能调优
下一节:第7节:图像切分不合理,文本矫正和版面区域检查,保证信息不完整且不冗余
错误类型
OCR识别错误通常可分为以下几种:
- 字符识别错误
- 文字遗漏
- 多次重复
- 格式混乱
- 特殊符号识别错误
这些错误往往源于以下几个方面:
- 图像质量不佳
- 字体样式复杂
- 背景干扰
- OCR算法限制
传统解决方案的局限性
传统的OCR优化方案主要包括
- 图像预处理
- 后处理规则
- 模型微调
结合LLM进行文本纠错新思路
- 充分发挥大语言模型能力
- OCR+大语言模型协同流程
我们可以将整个OCR处理流程分为两个阶段:
- OCR识别阶段:使用PaddleOCR5其对图像进行识别,得到初步的文本结果
- LLM纠错阶段:将OCR输出的文本送入大语言模型,由其进行语义级别的纠错和优化
实操
https://www.paddlepaddle.org.cn/install/quick?docurl=undefined

# 运行 PP-OCRv5 推理
! paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png --use_doc_orientation_classify False --use_doc_unwarping False --use_textline_orientation False
# 运行 PP-ChatOCRv4 推理前,需要先获得千帆API Key
# paddleocr pp_chatocrv4_doc -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png -k 驾驶室准乘人数 --qianfan_api_key your_api_key --use_doc_orientation_classify False --use_doc_unwarping False
# 查看 "paddleocr ocr" 详细参数
# paddleocr ocr --help
# PP-OCRv5 示例
from paddleocr import PaddleOCR
# 初始化 PaddleOCR 实例
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False)
# 对示例图像执行 OCR 推理
result = ocr.predict(
input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
# 可视化结果并保存 json 结果
for res in result:
res.print()
res.save_to_img("output")
res.save_to_json("output")