Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
coderYYY4 分钟前
git push报错Authentication failed for ‘xxx’也不会弹要求输入用户名密码的最终解决方法
前端·git·gitee·github
ZhengEnCi32 分钟前
M2-如何转换为PDF
python
l1t42 分钟前
QWen 3.5plus总结的总结基准测试结果的正确方法
前端·数据库
gCode Teacher 格码致知1 小时前
Javascript及Python提高:将对象的键值对转换为数组元素的方式以及两种语言的对比-由Deepseek产生
javascript·python
浔川python社1 小时前
《C++ 小程序编写系列》(合集)
python
优化控制仿真模型1 小时前
【2026年6月最新】英语四级历年真题及答案解析PDF电子版(2015-2025年12月)
经验分享·pdf
阿钱真强道1 小时前
37 Python 时序和文本:词袋模型 BoW 和 TF-IDF 到底怎么理解?
python·nlp·tf-idf·文本向量化·词袋模型·bow
kyriewen111 小时前
为什么我的代码在测试环境跑得好好的,一到用户电脑就崩?原来凶手躲在地址栏旁边
开发语言·前端·javascript·chrome·ecmascript·html5
2401_873544921 小时前
使用Fabric自动化你的部署流程
jvm·数据库·python