Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
Knight_AL3 小时前
深入理解Java中的函数式接口
java·开发语言·python
深蓝海拓3 小时前
PySide6从0开始学习的笔记(二十一) 使用loadUi直接加载.ui文件
笔记·python·qt·学习·ui·pyqt
Stanford_11063 小时前
【2026新年启程】学习之路,探索之路,技术之路,成长之路……都与你同行!!!
前端·c++·学习·微信小程序·排序算法·微信开放平台
rocksun3 小时前
Neovim,会是你的下一款“真香”开发神器吗?
linux·python·go
打小就很皮...3 小时前
网页包装为桌面应用(Nativefier版)
前端·桌面应用·nativefier
s43 小时前
Python安装在C盘后如何移到D盘
c语言·windows·python
mg6683 小时前
0基础开发学习python工具_____一键打包!用 PyInstaller 将 Python 烟花程序转为 .exe(无需 Python 环境)
开发语言·python
自由生长20244 小时前
为什么我们需要流式系统?
前端
helloworld也报错?4 小时前
目标检测系列之YOLOv11——v8模型的继续改进
人工智能·python·目标检测·目标跟踪