借助于llm将pdf转化为md文本

pdf转化为md格式后,意味着非结构化文本转为结构化文本,能清晰定位大标题、子标题,图表。

方便后续处理,因为llamaindex和langchain能更有效切分md类文本,避免信息丢失。

1)读取pdf为txt

读取pdf,并使用RecursiveCharacterTextSplitter去尝试分块,一般情况下效果不好

pdf文本暂时表示recur_text

复制代码
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter

from pypdf import PdfReader
# 读取 PDF 文件
pdf_path = 'docs/word.pdf'
reader = PdfReader(pdf_path)
recur_text = ''
for page in reader.pages:
    recur_text += page.extract_text().strip() + "\n\n"

recur_splitter = RecursiveCharacterTextSplitter(
    separators=["。"],
    chunk_size = 512,
    chunk_overlap  = 128
)
recur_docs = recur_splitter.create_documents([recur_text])

2)使用llm将txt转化为md

qwen或deepseek小一点的LLM不能完成这个任务,deepseek-r1完整版本可以。

prompt示例如下

复制代码
# 示例调用
prompt = """
请将以下合同转化为md格式。
---
{}
""".format(recur_text)

若recur_text太长,需要切分后分批调用。

另外一种方式,就是将pdf先转化为图谱,在调用qwen2.5-vl模型解析图片输出md5文档。

reference


qwen2.5vl-pdf2md

https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb

olmocr

https://github.com/allenai/olmocr

六个开源的PDF转Markdown项目

https://zhuanlan.zhihu.com/p/711487482

llm-parse

https://github.com/tanchangsheng/llm-parse

相关推荐
耘田14 小时前
Markdown to PDF/PNG Converter
pdf
AirDroid_cn1 天前
PDF转图片需要用到什么技术?苹果手机怎样将PDF转为jpg?
pdf·iphone·ipad·快捷指令
拓端研究室2 天前
专题:2025全球消费趋势与中国市场洞察报告|附300+份报告PDF、原数据表汇总下载
大数据·信息可视化·pdf
Kyln.Wu3 天前
【python实用小脚本-190】Python一键删除PDF任意页:输入页码秒出干净文件——再也不用在线裁剪排队
服务器·python·pdf
阿幸软件杂货间4 天前
免费万能电子书格式转换器!Neat Converter支持 ePub、Azw3、Mobi、Doc、PDF、TXT 文件的相互转换。
pdf·格式转换
星马梦缘4 天前
CSDN转PDF【无水印且免费!!!】
pdf·免费·pandoc·转pdf·无水印·csdn转pdf·wkhtmlpdf
画月的亮4 天前
前端处理导出PDF。Vue导出pdf
前端·vue.js·pdf
伊织code5 天前
pdfminer.six
python·pdf·图片·提取·文本·pdfminer·pdfminer.six
HAPPY酷5 天前
给纯小白的Python操作 PDF 笔记
开发语言·python·pdf
代码AI弗森6 天前
PDF OCR + 大模型:让文档理解不止停留在识字
pdf·ocr