转换pdf文件为md文件【markitdown+pdf4llm】

文章目录

一、镜像安装markitdown

  • 使用清华源安装(推荐)
python 复制代码
pip install markitdown -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 或者使用阿里云源
python 复制代码
pip install markitdown -i https://mirrors.aliyun.com/pypi/simple/
  • 如果需要安装所有可选依赖(支持更多文件格式),可以加上 [all]:
python 复制代码
pip install markitdown[all] -i https://pypi.tuna.tsinghua.edu.cn/simple

二、屏蔽各种warnning

三、实操

方法一:cmd指令执行

在转换文件所在文件夹下,输入cmd,回车,调出cmd窗口

方法二:Python代码执行

  • pdf转md,只能转文字:
python 复制代码
from markitdown import MarkItDown

# 创建一个MarkItDown转换器实例
md = MarkItDown()

# 转换文件:支持PDF, DOCX, XLSX, JPG, MP3, 甚至ZIP文件等
result = md.convert("222.pdf")

# 获取Markdown文本内容
markdown_content = result.text_content
print(markdown_content)

# 可以选择将转换后的文本保存为一个.md文件
with open("output222_markitdown.md", "w", encoding="utf-8") as f:
    f.write(markdown_content)

input("请按回车键退出...")
  • xlsx转md,只能转文字,代码类似。

pdf转md带图片的实现【库:pdf4llm】

python 复制代码
import pdf4llm
import pathlib

md_text = pdf4llm.to_markdown("222.pdf", write_images=True)
pathlib.Path("output222_havePicture.md").write_bytes(md_text.encode())
相关推荐
咯哦哦哦哦7 小时前
Foundationpose环境配置【非conda--纯UV】(linux22.04+python3.10)
python·pip·uv
AC赳赳老秦7 小时前
项目闭环管理:用 OpenClaw 对接 Jira / 禅道,实现需求 - 任务 - 进度 - 验收全流程自动化
运维·人工智能·python·自动化·devops·jira·openclaw
fillwang7 小时前
间接料库存预警报告设计
python·rpa
.柒宇.7 小时前
AI 掘金头条项目-新闻模块实现
数据库·后端·python·fastapi
Chockong8 小时前
06_yolox_s.onnx的推理验证
python·神经网络
七颗糖很甜8 小时前
台风数据免费获取教程
大数据·python·算法
DeniuHe8 小时前
sklearn.utils.validation.check_random_state 详解
人工智能·python·sklearn
开开心心_Every8 小时前
图片转PDF合并工具,支持扫描仪输入
运维·前端·人工智能·随机森林·edge·pdf·逻辑回归