Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
掘金安东尼5 小时前
让 JavaScript 更容易「善后」的新能力
前端·javascript·面试
掘金安东尼5 小时前
用 HTMX 为 React Data Grid 加速实时更新
前端·javascript·面试
花酒锄作田6 小时前
使用 pkgutil 实现动态插件系统
python
灵感__idea7 小时前
Hello 算法:众里寻她千“百度”
前端·javascript·算法
yinuo7 小时前
轻松接入大语言模型API -04
前端
袋鼠云数栈UED团队8 小时前
基于 Lexical 实现变量输入编辑器
前端·javascript·架构
cipher8 小时前
ERC-4626 通胀攻击:DeFi 金库的"捐款陷阱"
前端·后端·安全
UrbanJazzerati8 小时前
非常友好的Vue 3 生命周期详解
前端·面试
AAA阿giao9 小时前
从零构建一个现代登录页:深入解析 Tailwind CSS + Vite + Lucide React 的完整技术栈
前端·css·react.js
兆子龙9 小时前
像 React Hook 一样「自动触发」:用 Git Hook 拦住忘删的测试代码与其它翻车现场
前端·架构