文章目录
一、镜像安装markitdown
- 使用清华源安装(推荐)
python
pip install markitdown -i https://pypi.tuna.tsinghua.edu.cn/simple
- 或者使用阿里云源
python
pip install markitdown -i https://mirrors.aliyun.com/pypi/simple/
- 如果需要安装所有可选依赖(支持更多文件格式),可以加上 [all]:
python
pip install markitdown[all] -i https://pypi.tuna.tsinghua.edu.cn/simple
二、屏蔽各种warnning

三、实操
方法一:cmd指令执行
在转换文件所在文件夹下,输入cmd,回车,调出cmd窗口

方法二:Python代码执行
- pdf转md,只能转文字:
python
from markitdown import MarkItDown
# 创建一个MarkItDown转换器实例
md = MarkItDown()
# 转换文件:支持PDF, DOCX, XLSX, JPG, MP3, 甚至ZIP文件等
result = md.convert("222.pdf")
# 获取Markdown文本内容
markdown_content = result.text_content
print(markdown_content)
# 可以选择将转换后的文本保存为一个.md文件
with open("output222_markitdown.md", "w", encoding="utf-8") as f:
f.write(markdown_content)
input("请按回车键退出...")
- xlsx转md,只能转文字,代码类似。
pdf转md带图片的实现【库:pdf4llm】
- 需先安装库:pip install pdf4llm -i https://pypi.tuna.tsinghua.edu.cn/simple
python
import pdf4llm
import pathlib
md_text = pdf4llm.to_markdown("222.pdf", write_images=True)
pathlib.Path("output222_havePicture.md").write_bytes(md_text.encode())

