Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
民乐团扒谱机7 分钟前
【附完整代码】Python爬取古筝网曲谱图片一键生成PDF(下·PDF生成与GUI篇)
开发语言·python·pdf
爱上好庆祝8 分钟前
学习js的第四天
前端·css·学习·html·css3·js
lunareclipse9 分钟前
Python 填坑:消失的信号点 —— 详解“可变默认参数”陷阱
python
d111111111d9 分钟前
UAER问题+修复小bug
前端·javascript·笔记·stm32·单片机·嵌入式硬件·学习
光之后裔11 分钟前
Numpy以及Pytorch中多维数组的维度数与维度值以及轴axis理解
pytorch·python·numpy
玛卡巴卡ldf16 分钟前
【Springboot9】将业务模块数据导出为PDF
pdf·springboot
tangweiguo0305198717 分钟前
RAG 从零到一:让大模型读懂你的文档
python·langchain
挖AI金矿19 分钟前
(六)文件与搜索 - 信息处理的正确姿势
人工智能·python·开源·个人开发·ai编程
Fleshy数模23 分钟前
Python+MediaPipe 实现实时手部关键点检测(新手避坑完整版)
python