Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
复制代码
pip install pdfminer.six 
pip install markdownify
实现
复制代码
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
相关推荐
mCell4 小时前
使用 useSearchParams 同步 URL 和查询参数
前端·javascript·react.js
mCell6 小时前
前端路由详解:Hash vs History
前端·javascript·vue-router
海上彼尚6 小时前
无需绑卡的海外地图
前端·javascript·vue.js·node.js
1024肥宅6 小时前
手写 call、apply、bind 的实现
前端·javascript·ecmascript 6
Wise玩转AI7 小时前
Day 27|智能体的 UI 与用户交互层
人工智能·python·ui·ai·chatgpt·ai智能体
科杰智能制造7 小时前
纯前端html、js实现人脸检测和表情检测,可直接在浏览器使用
前端·javascript·html
每天吃饭的羊7 小时前
组件库的有些点击事件是name-click这是如何分装de
前端·javascript·vue.js
s***46987 小时前
【玩转全栈】----Django模板语法、请求与响应
数据库·python·django
x***01067 小时前
SpringSecurity+jwt实现权限认证功能
android·前端·后端
1024肥宅8 小时前
防抖(Debounce)
前端·javascript·ecmascript 6