RAG处理PDF图片:步骤顺序与完整流程

文章目录

1.核心结论

图片提取、OCR文字抽取、多模态描述生成,全都放在 MarkdownHeaderTextSplitter 之前。

补充关键误区纠正:PDF本身不带Markdown标记,#、##、Markdown表格这些格式,全是后期人工加上去的,不是PDF原生自带的。

所有非文本内容转文本、全文结构化规整,是语义切分的前置工作,先完成所有内容的文本化,再手动添加Markdown标记,最后进行切分,保证流程顺畅、内容完整。

图片提取、OCR文字抽取、多模态描述生成,全都放在 MarkdownHeaderTextSplitter 之前。

所有非文本内容转文本、全文结构化规整,是语义切分的前置工作,先完成所有内容的文本化,再进行切分,保证流程顺畅、内容完整。


2.详细步骤顺序(标准合规流程)

第一步:PDF全文解析,拆分各类元素

这一步依旧使用 Unstructured实现,它支持高精度PDF解析,能自动分离文本、表格、图片三类元素,不用手动拆分,是工业界最省事的成熟方案。

具体实现(核心代码)

python 复制代码
from langchain_community.document_loaders import UnstructuredPDFLoader

第二部: 开启元素模式,分离文本、表格、图片,启用高精度解析
loader = UnstructuredPDFLoader(
    "带图片的文档.pdf",
    # elements模式:拆分出每一种独立元素
    mode="elements",
    # 高精度模式,必须开启,才能识别图片、表格、定位位置
    strategy="hi_res",
    # 允许提取图片(必须设为True)
    extract_images=True,
    # 可选:指定图片临时存放路径
    image_output_dir="./pdf_extracted_images"
)

第三步: 执行解析,得到所有元素列表
elements = loader.load()

# 遍历元素,分类筛选
for elem in elements:
    elem_type = elem.metadata["category"]
    # 正文文本
    if elem_type == "Title":
        pass
    elif elem_type == "Paragraph":
        pass
    # 表格
    elif elem_type == "Table":
        pass
    # 图片(抠出的图片会被识别为Image类型)
    elif elem_type == "Image":
        # 自带图片位置、页码、本地路径信息
        print("图片所在页码:", elem.metadata["page_number"])
        print("图片本地保存路径:", elem.metadata["image_path"])
        print("图片坐标位置:", elem.metadata["coordinates"])

第二步:图片处理,转为文本内容

  1. 用OCR模型,提取图片里的可识别文字

  2. 用多模态模型(GPT-4o、Qwen-VL、Llama-OCR等),生成图片内容描述

  3. 拼接OCR文字+图片描述,形成一段完整文本,放回PDF原文对应的位置

  4. 注意:图片本身不入库、不进入后续流程

第三步:全文结构化,手动添加Markdown标记

  1. 规整全文格式,手动给标题添加#、##、###标记(对应一级、二级、三级标题)

  2. 把刚才生成的图片文本、描述,放回原文对应位置,并入正文

  3. 最终整理出一篇完整的、带标准Markdown格式的文本

  4. 规整全文格式,把标题转为#、##、###格式

  5. 将PDF内嵌表格,转换为标准Markdown表格格式

  6. 把刚才生成的图片文本、描述,并入正文,形成完整的结构化Markdown文本

第四步:语义切分(核心切分器登场)

  1. 使用 MarkdownHeaderTextSplitter,按标题层级切分

  2. 对超长文本块,用递归字符切分器做微调,控制块长度

第五步:后续流程

  1. 给文本块补充元数据(来源、页码、标题层级等)

  2. 向量化处理,存入向量库


3. 关键原因(为什么必须放在前面)

  1. 保证语义完整:先把图片转为文本,再切分,能让图片相关信息和上下文贴合,不割裂内容,检索更精准

  2. 符合切分器逻辑:MarkdownHeaderTextSplitter只处理纯文本,不处理图片、二进制文件,必须提前把所有内容转为纯文本

  3. 避免流程混乱:先补齐所有文本内容、规整格式,再统一切分,不用拆分处理、重复操作,效率更高,出错更少


4.一句话速记

先把所有内容变成纯文本、做成标准Markdown,再用 MarkdownHeaderTextSplitter 切分。

图片转文字、表格转格式,统统是前置准备工作,全都在切分之前完成。

相关推荐
桃花键神40 分钟前
Bright Data Web Scraping指南 2026: 使用 MCP + Dify 自动采集海外社交媒体数据
大数据·前端·人工智能
gogoing43 分钟前
await fetch() 的两阶段设计
前端·javascript
gogoing1 小时前
前端首屏加载优化
前端·javascript
gogoing1 小时前
重排与重绘
前端·javascript
打小就很皮...1 小时前
基于Python + LangChain + 通义千问的聊天机器人实战
前端·langchain·机器人·千问
渣渣盟1 小时前
Mysql入门到精通全集(SQL99)包含关系运算,软考数据库工程师复习首选
数据库·mysql·oracle
REDcker1 小时前
个人博客网站建设指南 Markdown资产化与静态站选型部署
前端·后端·博客·markdown·网站·资产·建站
zhangfeng11331 小时前
小龙虾 wordbuddy 安装浏览器控制器 agent-browser npm install -g agent-browse
前端·人工智能·npm·node.js
dishugj2 小时前
HANA 数据库的核心进程架构
数据库
徐小夕2 小时前
100小时,我做了一款AI CAD建模软件,开源!
前端·vue.js·github