MarkitDown 简介
2024 年 11 月中旬,微软于 GitHub 上发布了开源项目 MarkitDown,一款轻量级 python 工具,用于将各类文件转换为 Markdown 格式,以便在大语言模型(LLM)和相关文本分析流程中使用。
MarkitDown 核心优势在于简化 AI 处理流程。当前主流大语言模型均对 Markdown 格式理解最优,且能大幅节省 Token 消耗。
MarkitDown 支持转换格式,包括有:pdf、word、ppt、excel、html、图像及音频。

截至 4 月底,MarkitDown 在 GitHub 已获得超 11.6 万颗星(stars)、7600+ 复刻(forks),妥妥属于 GitHub 现象级开源项目。
这么说吧,在 GitHub 拥有 10 万星的项目,全球仅有数百个,MarkitDown 便是其中之一。

MarkitDown 项目地址:https://github.com/microsoft/markitdown/
MarkitDown 高热度、高认可度、高流行的背后,从另一角度反映出 Markdown 格式在当前 AI 时代下的重要程度。
MarkitDown 安装方法
第一步:确认 python 环境
MarkitDown 需要 python 3.10 或更高版本。
查看 python 版本的命令:
python
python -V 或者 python --version
当下的很多大模型 API 调用第三方工具包,都对 python 环境的版本有一定的要求,为了更好的兼容 AI 时代下的很多新的第三方工具包,最好是将 python 的版本升级到 python 3.10 - 3.12 之间。
其实较为准确的说法是,不是现在的第三方工具包对 python 的版本要求高,而是 AI 时代的技术栈本身就诞生在新版本的 python 里。
第二步:安装 MarkitDown
直接使用 pip 命令进行安装,完整命令如下:
python
pip install markitdown[all]
MarkitDown 安装时可以选择相关依赖安装,上面的命令是安装了所有的可选依赖。
目前的可选依赖包括:

第三步:查看是否安装成功
查看是否安装成功的命令:pip show markitdown
安装成功后,会返回版本号、作者等信息,如下图:

MarkitDown 的两种使用方式
使用方式一:命令行(最简单)
打开命令提示符(cmd),根据需求输入相应命令并回车即可。
下面以 pdf 为例,word、excel、html 等文件转换方式一样。
python
# 转换PDF并输出到终端
markitdown 需转换的pdf文件完整路径
# 转换PDF并保存至本地
markitdown 需转换的pdf文件完整路径 -o 保存结果.md的完整路径
或者
markitdown 需转换的pdf文件完整路径 > 保存结果.md的完整路径
这种命令行的方式适用于快速转换单个文件,仅一行命令就可搞定。
实例:假设 D 盘根目录下有一个 test.pdf 文件需要转换,完整命令如下。
python
markitdown d:\test.pdf -o d:\test.md
使用方式二: python 代码调用
python
from markitdown import MarkItDown
md = MarkItDown()
# 转换单个文件
result = md.convert("test.pdf")
print(result.text_content)
# 保存到文件
with open("test.md","w", encoding="utf-8") as f:
f.write(result.text_content)
python 代码调用的方式,适用于批量处理,例如需要对多个 pdf 文件进行转换时,在上面代码中加入循环即可。
python
import os
from markitdown import MarkItDown
md = MarkItDown()
for filename in os.listdir("pdf文件夹路径"):
if filename.endswith(".pdf"):
result = md.convert(f"pdf文件夹路径/{filename}")
output_name = filename.replace(".pdf",".md")
with open(f"输出文件夹路径/{output_name}","w", encoding="utf-8") as f:
f.write(result.text_content)
print(f"已转换:{filename}")
MarkitDown 进阶用法
进阶用法一:搭配大模型使用
MarkitDown 可以搭配大模型使用,识别图像内容并生成描述。
python
from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI() #填写api_key
md = MarkItDown(llm_client=client, llm_model="gpt-4o", llm_prompt="optional custom prompt")
result = md.convert("example.jpg")
print(result.text_content)
该用法目前仅支持 pptx 和图片。
其中使用到的 openai 可直接使用 pip 命令安装:
python
pip install openai
进阶用法二:支持第三方插件
MarkitDown 支持第三方插件。
如,可安装 markitdown-ocr 插件,为图片、扫描版 pdf 等进行文字识别。
安装命令:
python
pip install markitdown-ocr
查看已经安装的插件列表:
python
markitdown --list-plugins

插件使用方法:
python
from markitdown import MarkItDown
from openai import OpenAI
md = MarkItDown(
enable_plugins=True,
llm_client=OpenAI(),#填写api_key
llm_model="gpt-4o",
)
result = md.convert("document_with_images.pdf")
print(result.text_content)
总的来看,Markitdown 虽然只是解决了一个文件转换的小问题,但能在 GitHub 上面斩获超 10 万星,在当前 AI 时代下如此备受关注,说明它确实戳中了大家的实际应用刚需。
-end-