RAG处理PDF图片:步骤顺序与完整流程

文章目录

1.核心结论

图片提取、OCR文字抽取、多模态描述生成,全都放在 MarkdownHeaderTextSplitter 之前。

补充关键误区纠正:PDF本身不带Markdown标记,#、##、Markdown表格这些格式,全是后期人工加上去的,不是PDF原生自带的。

所有非文本内容转文本、全文结构化规整,是语义切分的前置工作,先完成所有内容的文本化,再手动添加Markdown标记,最后进行切分,保证流程顺畅、内容完整。

图片提取、OCR文字抽取、多模态描述生成,全都放在 MarkdownHeaderTextSplitter 之前。

所有非文本内容转文本、全文结构化规整,是语义切分的前置工作,先完成所有内容的文本化,再进行切分,保证流程顺畅、内容完整。


2.详细步骤顺序(标准合规流程)

第一步:PDF全文解析,拆分各类元素

这一步依旧使用 Unstructured实现,它支持高精度PDF解析,能自动分离文本、表格、图片三类元素,不用手动拆分,是工业界最省事的成熟方案。

具体实现(核心代码)

python 复制代码
from langchain_community.document_loaders import UnstructuredPDFLoader

第二部: 开启元素模式,分离文本、表格、图片,启用高精度解析
loader = UnstructuredPDFLoader(
    "带图片的文档.pdf",
    # elements模式:拆分出每一种独立元素
    mode="elements",
    # 高精度模式,必须开启,才能识别图片、表格、定位位置
    strategy="hi_res",
    # 允许提取图片(必须设为True)
    extract_images=True,
    # 可选:指定图片临时存放路径
    image_output_dir="./pdf_extracted_images"
)

第三步: 执行解析,得到所有元素列表
elements = loader.load()

# 遍历元素,分类筛选
for elem in elements:
    elem_type = elem.metadata["category"]
    # 正文文本
    if elem_type == "Title":
        pass
    elif elem_type == "Paragraph":
        pass
    # 表格
    elif elem_type == "Table":
        pass
    # 图片(抠出的图片会被识别为Image类型)
    elif elem_type == "Image":
        # 自带图片位置、页码、本地路径信息
        print("图片所在页码:", elem.metadata["page_number"])
        print("图片本地保存路径:", elem.metadata["image_path"])
        print("图片坐标位置:", elem.metadata["coordinates"])

第二步:图片处理,转为文本内容

  1. 用OCR模型,提取图片里的可识别文字

  2. 用多模态模型(GPT-4o、Qwen-VL、Llama-OCR等),生成图片内容描述

  3. 拼接OCR文字+图片描述,形成一段完整文本,放回PDF原文对应的位置

  4. 注意:图片本身不入库、不进入后续流程

第三步:全文结构化,手动添加Markdown标记

  1. 规整全文格式,手动给标题添加#、##、###标记(对应一级、二级、三级标题)

  2. 把刚才生成的图片文本、描述,放回原文对应位置,并入正文

  3. 最终整理出一篇完整的、带标准Markdown格式的文本

  4. 规整全文格式,把标题转为#、##、###格式

  5. 将PDF内嵌表格,转换为标准Markdown表格格式

  6. 把刚才生成的图片文本、描述,并入正文,形成完整的结构化Markdown文本

第四步:语义切分(核心切分器登场)

  1. 使用 MarkdownHeaderTextSplitter,按标题层级切分

  2. 对超长文本块,用递归字符切分器做微调,控制块长度

第五步:后续流程

  1. 给文本块补充元数据(来源、页码、标题层级等)

  2. 向量化处理,存入向量库


3. 关键原因(为什么必须放在前面)

  1. 保证语义完整:先把图片转为文本,再切分,能让图片相关信息和上下文贴合,不割裂内容,检索更精准

  2. 符合切分器逻辑:MarkdownHeaderTextSplitter只处理纯文本,不处理图片、二进制文件,必须提前把所有内容转为纯文本

  3. 避免流程混乱:先补齐所有文本内容、规整格式,再统一切分,不用拆分处理、重复操作,效率更高,出错更少


4.一句话速记

先把所有内容变成纯文本、做成标准Markdown,再用 MarkdownHeaderTextSplitter 切分。

图片转文字、表格转格式,统统是前置准备工作,全都在切分之前完成。

相关推荐
Wyz201210241 分钟前
怎么在MongoDB中实现动态轮换证书(Certificate Rotation)而不停机
jvm·数据库·python
2301_782659181 分钟前
CSS如何制作悬停时图片加深的覆盖层_利用transition控制rgba
jvm·数据库·python
百结2142 分钟前
NoSQL之Redis配置与优化
数据库·redis·nosql
2501_907136822 分钟前
PDF Font Fixer 修复PDF文档不能复制粘贴问题
pdf·软件需求
m0_514520575 分钟前
HTML5中Vuex持久化插件中WebStorage的底层配置
jvm·数据库·python
nodcloud5 分钟前
Chrome 142 更新导致点可云报表助手打印异常:启动服务仍提示启动的解决方案
前端·数据库·chrome
ZC跨境爬虫6 分钟前
3D地球卫星轨道可视化平台开发Day2(轨道错位Bug修复+模块化结构优化)
前端·3d·html·json·bug
ZC跨境爬虫9 分钟前
3D 地球卫星轨道可视化平台开发 Day1(3D 场景、卫星渲染与筛选交互实现)
前端·3d·html·json·交互
Dontla9 分钟前
Audit Log(审计日志)介绍(对系统中关键操作行为记录,用户行为+系统变更+安全事件)中间件 / AOP、数据库层——数据库变更捕获(CDC)
数据库·中间件
a9511416429 分钟前
Redis如何利用Redisson处理并发击穿
jvm·数据库·python