Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
粥里有勺糖8 分钟前
视野修炼-技术周刊第129期 | 上一次古法编程是什么时候
前端·javascript·github
pzx_00117 分钟前
【优化器】 随机梯度下降 SGD 详解
人工智能·python·算法
大邳草民17 分钟前
Python 中 global 与 nonlocal 的语义与机制
开发语言·笔记·python
whuhewei19 分钟前
JS获取CSS动画的旋转角度
前端·javascript·css
蓝黑202022 分钟前
Vue组件通信之v-model
前端·javascript·vue
程序员小远30 分钟前
软件测试用例总结
自动化测试·软件测试·python·功能测试·测试工具·职场和发展·测试用例
2501_9481142434 分钟前
技术解码:Gemini交互式模拟API与高负载网关的选型逻辑
人工智能·python·ai
像素之间44 分钟前
为什么运行时要加set NODE_OPTIONS=--openssl-legacy-provider && vue-cli-service serve
前端·javascript·vue.js
M ? A1 小时前
Vue转React实战:defineProps精准迁移实战
前端·javascript·vue.js·经验分享·react.js·开源·vureact
AC赳赳老秦1 小时前
OpenClaw text-translate技能:多语言批量翻译,解决跨境工作沟通难题
大数据·运维·数据库·人工智能·python·deepseek·openclaw