Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
摆烂工程师2 分钟前
教你如何查询 Codex 最新额度是多少,以及 ChatGPT Pro、Plus、Business 最新额度变化
前端·后端·ai编程
赵优秀一一4 分钟前
Python 工程化基础1:环境(conda)、pip、requirements.txt
linux·开发语言·python
kaizq5 分钟前
Python-Nacos电商订单分布微服系统开发
python·nacos·分布微服务·ai-ima-glm·电商订单
捧月华如6 分钟前
响应式设计原理与实践:适配多端设备的前端秘籍
前端·前端框架·json
优化控制仿真模型7 分钟前
【26大英赛】2012-2026年全国大学生英语竞赛ABCD类历年真题、样题及答案电子版PDF
经验分享·pdf
笨笨狗吞噬者8 分钟前
VSCode 插件推荐 Copy Filename Pro,快速复制文件、目录和路径的首选
前端·visual studio code
Armouy10 分钟前
Electron:核心概念、性能优化与兼容问题
前端·javascript·electron
kishu_iOS&AI18 分钟前
机器学习 —— 线性回归(实例)
人工智能·python·机器学习·线性回归
淡笑沐白20 分钟前
ECharts入门指南:数据可视化实战
前端·javascript·echarts
魔卡少女122 分钟前
Nginx配置代码化自动部署詹金斯/Github方案
前端·nginx·github