Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
2301_812539671 分钟前
CSS如何制作下拉菜单弹性展开_利用transform-origin
jvm·数据库·python
恋猫de小郭4 分钟前
AndroidX 将引入有全新 AppState ,用于管理 Compose 状态
android·前端·flutter
2401_833033625 分钟前
CSS Flex布局中如何设置子元素间距_掌握gap属性的现代用法
jvm·数据库·python
小新同学^O^5 分钟前
简单学习 --> JVM
java·开发语言·python
iuvtsrt6 分钟前
SQL如何优化子查询的性能_改写为JOIN关联查询与消除嵌套
jvm·数据库·python
2403_883261098 分钟前
C#怎么使用并发集合 C#ConcurrentDictionary和ConcurrentQueue线程安全集合怎么用【进阶】
jvm·数据库·python
别问,问就是菜鸡8 分钟前
阿里云效前端流水线自动化部署
前端·阿里云·自动化·持续部署
m0_470857648 分钟前
如何加固SQL系统架构_采用读写分离降低攻击影响
jvm·数据库·python
2401_884454158 分钟前
Golang如何写博客系统后端_Golang博客系统教程【技巧】
jvm·数据库·python
燐妤9 分钟前
前端HTML编程4:深入学习CSS
前端·学习·html