RAG处理PDF图片:步骤顺序与完整流程

文章目录

1.核心结论

图片提取、OCR文字抽取、多模态描述生成,全都放在 MarkdownHeaderTextSplitter 之前。

补充关键误区纠正:PDF本身不带Markdown标记,#、##、Markdown表格这些格式,全是后期人工加上去的,不是PDF原生自带的。

所有非文本内容转文本、全文结构化规整,是语义切分的前置工作,先完成所有内容的文本化,再手动添加Markdown标记,最后进行切分,保证流程顺畅、内容完整。

图片提取、OCR文字抽取、多模态描述生成,全都放在 MarkdownHeaderTextSplitter 之前。

所有非文本内容转文本、全文结构化规整,是语义切分的前置工作,先完成所有内容的文本化,再进行切分,保证流程顺畅、内容完整。


2.详细步骤顺序(标准合规流程)

第一步:PDF全文解析,拆分各类元素

这一步依旧使用 Unstructured实现,它支持高精度PDF解析,能自动分离文本、表格、图片三类元素,不用手动拆分,是工业界最省事的成熟方案。

具体实现(核心代码)

python 复制代码
from langchain_community.document_loaders import UnstructuredPDFLoader

第二部: 开启元素模式,分离文本、表格、图片,启用高精度解析
loader = UnstructuredPDFLoader(
    "带图片的文档.pdf",
    # elements模式:拆分出每一种独立元素
    mode="elements",
    # 高精度模式,必须开启,才能识别图片、表格、定位位置
    strategy="hi_res",
    # 允许提取图片(必须设为True)
    extract_images=True,
    # 可选:指定图片临时存放路径
    image_output_dir="./pdf_extracted_images"
)

第三步: 执行解析,得到所有元素列表
elements = loader.load()

# 遍历元素,分类筛选
for elem in elements:
    elem_type = elem.metadata["category"]
    # 正文文本
    if elem_type == "Title":
        pass
    elif elem_type == "Paragraph":
        pass
    # 表格
    elif elem_type == "Table":
        pass
    # 图片(抠出的图片会被识别为Image类型)
    elif elem_type == "Image":
        # 自带图片位置、页码、本地路径信息
        print("图片所在页码:", elem.metadata["page_number"])
        print("图片本地保存路径:", elem.metadata["image_path"])
        print("图片坐标位置:", elem.metadata["coordinates"])

第二步:图片处理,转为文本内容

  1. 用OCR模型,提取图片里的可识别文字

  2. 用多模态模型(GPT-4o、Qwen-VL、Llama-OCR等),生成图片内容描述

  3. 拼接OCR文字+图片描述,形成一段完整文本,放回PDF原文对应的位置

  4. 注意:图片本身不入库、不进入后续流程

第三步:全文结构化,手动添加Markdown标记

  1. 规整全文格式,手动给标题添加#、##、###标记(对应一级、二级、三级标题)

  2. 把刚才生成的图片文本、描述,放回原文对应位置,并入正文

  3. 最终整理出一篇完整的、带标准Markdown格式的文本

  4. 规整全文格式,把标题转为#、##、###格式

  5. 将PDF内嵌表格,转换为标准Markdown表格格式

  6. 把刚才生成的图片文本、描述,并入正文,形成完整的结构化Markdown文本

第四步:语义切分(核心切分器登场)

  1. 使用 MarkdownHeaderTextSplitter,按标题层级切分

  2. 对超长文本块,用递归字符切分器做微调,控制块长度

第五步:后续流程

  1. 给文本块补充元数据(来源、页码、标题层级等)

  2. 向量化处理,存入向量库


3. 关键原因(为什么必须放在前面)

  1. 保证语义完整:先把图片转为文本,再切分,能让图片相关信息和上下文贴合,不割裂内容,检索更精准

  2. 符合切分器逻辑:MarkdownHeaderTextSplitter只处理纯文本,不处理图片、二进制文件,必须提前把所有内容转为纯文本

  3. 避免流程混乱:先补齐所有文本内容、规整格式,再统一切分,不用拆分处理、重复操作,效率更高,出错更少


4.一句话速记

先把所有内容变成纯文本、做成标准Markdown,再用 MarkdownHeaderTextSplitter 切分。

图片转文字、表格转格式,统统是前置准备工作,全都在切分之前完成。

相关推荐
Ares-Wang2 小时前
flask 》》pymysql VS FastAPI aiomysql
数据库·flask·fastapi
yashuk2 小时前
clickhouse-介绍、安装、数据类型、sql
数据库·sql·clickhouse
面包资料屋2 小时前
2025.12英语四级解析第1套共18页PDF
pdf
qq5680180762 小时前
mysql数据被误删的恢复方案
数据库·mysql
倔强的石头_2 小时前
文档数据库迁移实战:MongoDB 协议级兼容与 JSONB 引擎性能深度对比
数据库
yaaakaaang2 小时前
(五)前端,如此简单!---变量
前端·javascript
2501_941982052 小时前
企微私域:实现企业通讯工具外部群消息的自动化主动推送
java·前端·javascript
三*一2 小时前
基于 Turf.js 实现高精度多边形修整工具(模拟 ArcGIS 修整功能)
开发语言·前端·javascript·arcgis·maobox gl·turf.js
踩着两条虫2 小时前
VTJ.PRO 在线应用开发平台的工作台与后台管理视图
前端·人工智能·ai编程