Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
小林ixn4 分钟前
从 List 切片到 LLM 调用:一篇搞定 Python 基础与 AI 接口
python·ai编程
用户713874229005 分钟前
浏览器安全机制与现代 SPA 认证架构深度解析
前端
Momo__5 分钟前
Node Modules Inspector:Vue 团队出品的依赖分析神器
前端·vue.js·npm
kisshyshy6 分钟前
从零搭建全栈应用:模块化思想 + 语义化HTML + JSON‑Server快速Mock
前端
yamsfeer8 分钟前
电商自动化支付全链路技术拆解:从Playwright到扫码支付的底层原理
前端
DongWook8 分钟前
WangEditor渲染标签自定义属性的探索
前端
sugar__salt9 分钟前
从Python列表切片到LLM接口实战:零基础AI编程落地教程
开发语言·python·ai·prompt·transformer·ai编程
沙漠9 分钟前
React Native-SyncFormatEdittext:用 JSI 实现零闪烁的实时文本格式化
前端·react native
超人气王10 分钟前
JavaScript新手基础入门——this指针指向,一文带你搞清楚
前端·javascript
乐于分享的阿乐12 分钟前
Miniconda3 超详细安装配置教程(附安装包及学习资料)
python