Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
m0_7482546612 小时前
CSS AI 编程
前端·css·人工智能
tjjucheng12 小时前
小程序定制开发公司排名
python
276695829213 小时前
dy bd-ticket-guard-client-data bd-ticket-guard-ree-public-key 逆向
前端·javascript·python·abogus·bd-ticket·mstoken·ticket-guard
Maddie_Mo13 小时前
智能体设计模式 第一章:提示链
人工智能·python·语言模型·rag
m0_7263658313 小时前
哈希分分预测系统 + Python Worker + Web 仪表盘”小系统(PHP + MySQL)
前端·python·哈希算法
WX-bisheyuange13 小时前
基于SpringBoot的交通管理在线服务系统
前端·javascript·vue.js·毕业设计
武帝为此13 小时前
【RC4加密算法介绍】
网络·python·算法
甄心爱学习14 小时前
Python 中 combinations 的详细用法
开发语言·python
Arenaschi14 小时前
关于垃圾的CSDN
java·网络·chrome·笔记·其他·oracle·pdf
开开心心就好14 小时前
内存清理工具开源免费,自动优化清理项
linux·运维·服务器·python·django·pdf·1024程序员节