转换pdf文件为md文件【markitdown+pdf4llm】

文章目录

一、镜像安装markitdown

  • 使用清华源安装(推荐)
python 复制代码
pip install markitdown -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 或者使用阿里云源
python 复制代码
pip install markitdown -i https://mirrors.aliyun.com/pypi/simple/
  • 如果需要安装所有可选依赖(支持更多文件格式),可以加上 [all]:
python 复制代码
pip install markitdown[all] -i https://pypi.tuna.tsinghua.edu.cn/simple

二、屏蔽各种warnning

三、实操

方法一:cmd指令执行

在转换文件所在文件夹下,输入cmd,回车,调出cmd窗口

方法二:Python代码执行

  • pdf转md,只能转文字:
python 复制代码
from markitdown import MarkItDown

# 创建一个MarkItDown转换器实例
md = MarkItDown()

# 转换文件:支持PDF, DOCX, XLSX, JPG, MP3, 甚至ZIP文件等
result = md.convert("222.pdf")

# 获取Markdown文本内容
markdown_content = result.text_content
print(markdown_content)

# 可以选择将转换后的文本保存为一个.md文件
with open("output222_markitdown.md", "w", encoding="utf-8") as f:
    f.write(markdown_content)

input("请按回车键退出...")
  • xlsx转md,只能转文字,代码类似。

pdf转md带图片的实现【库:pdf4llm】

python 复制代码
import pdf4llm
import pathlib

md_text = pdf4llm.to_markdown("222.pdf", write_images=True)
pathlib.Path("output222_havePicture.md").write_bytes(md_text.encode())
相关推荐
测试19982 小时前
软件测试 - 单元测试总结
自动化测试·软件测试·python·测试工具·职场和发展·单元测试·测试用例
曲幽4 小时前
我用了FastApiAdmin后,连夜把踩过的坑都整理出来了
redis·python·postgresql·vue3·fastapi·web·sqlalchemy·admin·fastapiadmin
前端若水6 小时前
会话管理:创建、切换、删除对话历史
前端·人工智能·python·react.js
涛声依旧-底层原理研究所7 小时前
残差连接与层归一化通俗易懂的详解
人工智能·python·神经网络·transformer
csdn_aspnet7 小时前
Python 算法快闪 LeetCode 编号 70 - 爬楼梯
python·算法·leetcode·职场和发展
fantasy_arch7 小时前
pytorch人脸匹配模型
人工智能·pytorch·python
熊猫_豆豆7 小时前
广义相对论水星近日点进动完整详细数学推导
python·天体·广义相对论
web3.08889997 小时前
1688 图搜接口(item_search_img / 拍立淘) 接入方法
开发语言·python
AI算法沐枫8 小时前
深度学习python代码处理科研测序数据
数据结构·人工智能·python·深度学习·决策树·机器学习·线性回归
X1A0RAN9 小时前
解决Pycharm中部分文件或文件夹被隐藏不展示问题
ide·python·pycharm