Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
梅梅绵绵冰2 分钟前
SpringMVC快速入门
前端
kirkWang2 分钟前
HarmonyOS 6.0 服务卡片实战:把「轻食刻」装进桌面,让轻断食一眼可控
前端
yanxiaoyu1102 分钟前
Pycharm远程调用Autodl进行训练(关机后不影响)
ide·python·pycharm
1024小神4 分钟前
VNBarcodeObservation的结果中observation.boundingBox 是什么类型?
前端
云和数据.ChenGuang7 分钟前
Python 3.14 与 PyCharm 2025.2.1 的调试器(PyDev)存在兼容性问题
开发语言·python·pycharm
xun_xing10 分钟前
Javascript的Iterator和Generator
前端·javascript
秃了才能变得更强10 分钟前
React Native 新、旧架构集成原生模块方式
前端
1024小神14 分钟前
swift中VNDetectBarcodesRequest VNImageRequestHandler 是什么?有什么作用?VN是什么意思
前端
加个鸡腿儿16 分钟前
React项目实战 | 修复Table可展开行,点击一个全部展开
前端·react.js·编程语言
在泡泡里17 分钟前
前端规范【五】biomejs自动化工具-ultracite
前端