Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
pip install pdfminer.six 
pip install markdownify
实现
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
她和夏天一样热6 分钟前
【前端系列】优化axios响应拦截器
java·前端·axios
single_ffish7 分钟前
数据挖掘入门介绍及代码实战
人工智能·爬虫·python·数据挖掘
投资小箱子18 分钟前
如何使用api接口
大数据·python·fastapi
木觞清24 分钟前
Python 图像处理:生成美丽的书籍封面
开发语言·python
计算机相关知识分享25 分钟前
Web前端基础知识(五)
前端
风_流沙28 分钟前
parquet文件数据格式介绍以及python pandas对parquet常见操作
开发语言·python·pandas
蜗牛_snail30 分钟前
Ant Design Vue 之可定位对话框
前端·javascript·vue.js
萧寂17338 分钟前
vue2使用tailwindcss
前端
可喜~可乐42 分钟前
目标检测入门指南:从原理到实践
人工智能·python·深度学习·目标检测·机器学习·计算机视觉
木觞清43 分钟前
如何使用 Python 和 FFmpeg 下载 B站视频
python·ffmpeg·音视频