Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
纯爱掌门人13 小时前
别再死磕框架了!你的技术路线图该更新了
前端·架构·前端框架
java_logo13 小时前
BUSYBOX Docker 容器化部署指南
java·运维·python·nginx·docker·容器·运维开发
丁点阳光13 小时前
Ract Router v7:最全基础与高级用法指南(可直接上手)
前端·react.js
~无忧花开~13 小时前
Vue.config.js配置全攻略
开发语言·前端·javascript·vue.js
2501_9411118214 小时前
使用Scikit-learn进行机器学习模型评估
jvm·数据库·python
w***Q35014 小时前
前端跨平台开发工具,Tauri与Electron
前端·javascript·electron
前端一课14 小时前
H5 WebView 文件下载到手机中(仅安卓与 iOS)
前端
小呀小萝卜儿14 小时前
2025-11-14 学习记录--Python-使用sklearn+检测 .csv 文件的编码+读取 .csv 文件
python·学习
天外来物15 小时前
element-plus主题配置及动态切换主题
前端·css·element
java1234_小锋15 小时前
[免费]基于python的Flask+Vue医疗疾病数据分析大屏可视化系统(机器学习随机森林算法+requests)【论文+源码+SQL脚本】
python·机器学习·数据分析·flask·疾病数据分析