Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
寒山李白18 小时前
解决 python-docx 生成的 Word 文档打开时弹出“无法读取内容“警告
python·word·wps·文档·docx·qoder
陈随易18 小时前
AI时代,你还在坚持手搓文章吗
前端·后端·程序员
2401_8323655219 小时前
JavaScript中rest参数(...args)取代arguments的优势
jvm·数据库·python
Sirius.z19 小时前
第J3周:DenseNet121算法详解
python
2301_7796224119 小时前
Go语言怎么用信号量控制并发_Go语言semaphore信号量教程【入门】
jvm·数据库·python
2301_7662834419 小时前
c++如何将控制台输出保存到文件_cout重定向到txt【详解】
jvm·数据库·python
里欧跑得慢20 小时前
17. Flutter Hero动画实现:让界面过渡更加优雅
前端·css·flutter·web
小康小小涵21 小时前
基于ESP32S3实现无人机RID模块底层源码编译
linux·开发语言·python
IT_陈寒21 小时前
Vue的这个响应式陷阱,我debug了一整天才爬出来
前端·人工智能·后端
lzjava202421 小时前
Python的函数
开发语言·python