Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
qq_372906932 分钟前
如何通过点击事件动态展开和收起 HTML 元素
jvm·数据库·python
踩着两条虫4 分钟前
VTJ:DSL语言规范
前端·低代码·ai编程
广州华水科技7 分钟前
单北斗GNSS在水库形变监测中的应用与优势分析
前端
qq_3721542315 分钟前
Golang Gin怎么做JWT登录认证_Golang Gin JWT教程【实用】
jvm·数据库·python
2401_8716965216 分钟前
C#怎么实现文件上传下载 C#如何用WebAPI实现大文件断点续传功能【网络】
jvm·数据库·python
m0_3776182319 分钟前
如何在 pytest 中通过组合多个 fixture 实现参数化测试
jvm·数据库·python
洲星河ZXH20 分钟前
JavaWeb,前端工程化
前端
Full Stack Developme21 分钟前
Hutool StrUtil 教程
开发语言·网络·python
小糖学代码21 分钟前
LLM系列:2.pytorch入门:2.PyTorch张量运算
pytorch·python·aigc·numpy
子兮曰22 分钟前
独立开发者主流技术栈(2026最新)
前端·后端·全栈