Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
Irene19917 分钟前
Python 卸载与安装(以卸载3.13.3,装3.13.13为例)
python
予早8 分钟前
使用 pyrasite-ng 和 guppy3 做内存分析
python·内存分析
nujnewnehc2 小时前
ps, ai, ae插件都可以用html和js开发了
前端·javascript
Jagger_5 小时前
整洁架构三连问:是什么,怎么做,为什么要用
前端
hef2885 小时前
如何生成特定SQL的AWR报告_@awrsqrpt.sql深度剖析单条语句性能
jvm·数据库·python
一个处女座的程序猿O(∩_∩)O6 小时前
React 完全入门指南:从基础概念到组件协作
前端·react.js·前端框架
Jinkxs6 小时前
从语法纠错到项目重构:Python+Copilot 的全流程开发效率提升指南
python·重构·copilot
技术专家6 小时前
Stable Diffusion系列的详细讨论 / Detailed Discussion of the Stable Diffusion Series
人工智能·python·算法·推荐算法·1024程序员节
段一凡-华北理工大学6 小时前
【大模型+知识图谱+工业智能体技术架构】~系列文章01:快速了解与初学入门!!!
人工智能·python·架构·知识图谱·工业智能体
前端摸鱼匠6 小时前
Vue 3 的defineEmits编译器宏:详解<script setup>中defineEmits的使用
前端·javascript·vue.js·前端框架·ecmascript