转换pdf文件为md文件【markitdown+pdf4llm】

文章目录

一、镜像安装markitdown

  • 使用清华源安装(推荐)
python 复制代码
pip install markitdown -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 或者使用阿里云源
python 复制代码
pip install markitdown -i https://mirrors.aliyun.com/pypi/simple/
  • 如果需要安装所有可选依赖(支持更多文件格式),可以加上 all
python 复制代码
pip install markitdown[all] -i https://pypi.tuna.tsinghua.edu.cn/simple

二、屏蔽各种warnning

三、实操

方法一:cmd指令执行

在转换文件所在文件夹下,输入cmd,回车,调出cmd窗口

方法二:Python代码执行

  • pdf转md,只能转文字:
python 复制代码
from markitdown import MarkItDown

# 创建一个MarkItDown转换器实例
md = MarkItDown()

# 转换文件:支持PDF, DOCX, XLSX, JPG, MP3, 甚至ZIP文件等
result = md.convert("222.pdf")

# 获取Markdown文本内容
markdown_content = result.text_content
print(markdown_content)

# 可以选择将转换后的文本保存为一个.md文件
with open("output222_markitdown.md", "w", encoding="utf-8") as f:
    f.write(markdown_content)

input("请按回车键退出...")
  • xlsx转md,只能转文字,代码类似。

pdf转md带图片的实现【库:pdf4llm】

python 复制代码
import pdf4llm
import pathlib

md_text = pdf4llm.to_markdown("222.pdf", write_images=True)
pathlib.Path("output222_havePicture.md").write_bytes(md_text.encode())
相关推荐
叫我:松哥8 小时前
基于机器学习和flask的体育健身风险智能分析系统,系统集成DeepSeek、聚类算法、分类算法等,准确率达90%
人工智能·python·神经网络·算法·机器学习·flask·聚类
码云骑士8 小时前
03-Python可变对象与不可变对象(下)-深浅拷贝的底层真相
开发语言·python
与代码不die不休8 小时前
RTX5060显卡torch和torch_radon库安装避坑指南(仅linux系统)
linux·图像处理·python·深度学习
砍材农夫8 小时前
python环境|pip|uv|venv|Conda区别
后端·python·conda·pip·uv
向量引擎8 小时前
AI API 正在进入“请求生命周期治理”阶段:从模型迁移、Agent 接入到成本与安全排错的工程化方法
java·人工智能·python·aigc·ai编程·ai写作·gpu算力
梦想不只是梦与想8 小时前
Python 中的线程(Thread)
python·线程·thread
热心不起来的市民小周8 小时前
100种动物语义分割数据集(A100-Seg)
python·深度学习·计算机视觉
DrMaker9 小时前
【无标题】
软件测试·python·测试工具·pyqt
MATLAB代码顾问9 小时前
Python数据分析项目实战:销售数据仪表盘
开发语言·python·数据分析
码云骑士9 小时前
07-Python装饰器从入门到源码(下)-带参数装饰器与wraps
开发语言·python