文章目录
- 1.核心结论
- 2.详细步骤顺序(标准合规流程)
- [3. 关键原因(为什么必须放在前面)](#3. 关键原因(为什么必须放在前面))
- 4.一句话速记
1.核心结论
图片提取、OCR文字抽取、多模态描述生成,全都放在 MarkdownHeaderTextSplitter 之前。
补充关键误区纠正:PDF本身不带Markdown标记,#、##、Markdown表格这些格式,全是后期人工加上去的,不是PDF原生自带的。
所有非文本内容转文本、全文结构化规整,是语义切分的前置工作,先完成所有内容的文本化,再手动添加Markdown标记,最后进行切分,保证流程顺畅、内容完整。
图片提取、OCR文字抽取、多模态描述生成,全都放在 MarkdownHeaderTextSplitter 之前。
所有非文本内容转文本、全文结构化规整,是语义切分的前置工作,先完成所有内容的文本化,再进行切分,保证流程顺畅、内容完整。
2.详细步骤顺序(标准合规流程)
第一步:PDF全文解析,拆分各类元素
这一步依旧使用 Unstructured实现,它支持高精度PDF解析,能自动分离文本、表格、图片三类元素,不用手动拆分,是工业界最省事的成熟方案。
具体实现(核心代码)
python
from langchain_community.document_loaders import UnstructuredPDFLoader
第二部: 开启元素模式,分离文本、表格、图片,启用高精度解析
loader = UnstructuredPDFLoader(
"带图片的文档.pdf",
# elements模式:拆分出每一种独立元素
mode="elements",
# 高精度模式,必须开启,才能识别图片、表格、定位位置
strategy="hi_res",
# 允许提取图片(必须设为True)
extract_images=True,
# 可选:指定图片临时存放路径
image_output_dir="./pdf_extracted_images"
)
第三步: 执行解析,得到所有元素列表
elements = loader.load()
# 遍历元素,分类筛选
for elem in elements:
elem_type = elem.metadata["category"]
# 正文文本
if elem_type == "Title":
pass
elif elem_type == "Paragraph":
pass
# 表格
elif elem_type == "Table":
pass
# 图片(抠出的图片会被识别为Image类型)
elif elem_type == "Image":
# 自带图片位置、页码、本地路径信息
print("图片所在页码:", elem.metadata["page_number"])
print("图片本地保存路径:", elem.metadata["image_path"])
print("图片坐标位置:", elem.metadata["coordinates"])
第二步:图片处理,转为文本内容
-
用OCR模型,提取图片里的可识别文字
-
用多模态模型(GPT-4o、Qwen-VL、Llama-OCR等),生成图片内容描述
-
拼接OCR文字+图片描述,形成一段完整文本,放回PDF原文对应的位置
-
注意:图片本身不入库、不进入后续流程
第三步:全文结构化,手动添加Markdown标记
-
规整全文格式,手动给标题添加#、##、###标记(对应一级、二级、三级标题)
-
把刚才生成的图片文本、描述,放回原文对应位置,并入正文
-
最终整理出一篇完整的、带标准Markdown格式的文本
-
规整全文格式,把标题转为#、##、###格式
-
将PDF内嵌表格,转换为标准Markdown表格格式
-
把刚才生成的图片文本、描述,并入正文,形成完整的结构化Markdown文本
第四步:语义切分(核心切分器登场)
-
使用 MarkdownHeaderTextSplitter,按标题层级切分
-
对超长文本块,用递归字符切分器做微调,控制块长度
第五步:后续流程
-
给文本块补充元数据(来源、页码、标题层级等)
-
向量化处理,存入向量库
3. 关键原因(为什么必须放在前面)
-
保证语义完整:先把图片转为文本,再切分,能让图片相关信息和上下文贴合,不割裂内容,检索更精准
-
符合切分器逻辑:MarkdownHeaderTextSplitter只处理纯文本,不处理图片、二进制文件,必须提前把所有内容转为纯文本
-
避免流程混乱:先补齐所有文本内容、规整格式,再统一切分,不用拆分处理、重复操作,效率更高,出错更少
4.一句话速记
先把所有内容变成纯文本、做成标准Markdown,再用 MarkdownHeaderTextSplitter 切分。
图片转文字、表格转格式,统统是前置准备工作,全都在切分之前完成。