微软开源项目MarkitDown:一款将pdf/word/ppt等各类文件转换为Markdown格式的python工具

MarkitDown 简介

2024 年 11 月中旬,微软于 GitHub 上发布了开源项目 MarkitDown,一款轻量级 python 工具,用于将各类文件转换为 Markdown 格式,以便在大语言模型(LLM)和相关文本分析流程中使用。

MarkitDown 核心优势在于简化 AI 处理流程。当前主流大语言模型均对 Markdown 格式理解最优,且能大幅节省 Token 消耗。

MarkitDown 支持转换格式,包括有:pdf、word、ppt、excel、html、图像及音频。

截至 4 月底,MarkitDown 在 GitHub 已获得超 11.6 万颗星(stars)、7600+ 复刻(forks),妥妥属于 GitHub 现象级开源项目。

这么说吧,在 GitHub 拥有 10 万星的项目,全球仅有数百个,MarkitDown 便是其中之一。

MarkitDown 项目地址:https://github.com/microsoft/markitdown/

MarkitDown 高热度、高认可度、高流行的背后,从另一角度反映出 Markdown 格式在当前 AI 时代下的重要程度。

MarkitDown 安装方法

第一步:确认 python 环境

MarkitDown 需要 python 3.10 或更高版本。

查看 python 版本的命令:

python 复制代码
python -V 或者 python --version

当下的很多大模型 API 调用第三方工具包,都对 python 环境的版本有一定的要求,为了更好的兼容 AI 时代下的很多新的第三方工具包,最好是将 python 的版本升级到 python 3.10 - 3.12 之间。

其实较为准确的说法是,不是现在的第三方工具包对 python 的版本要求高,而是 AI 时代的技术栈本身就诞生在新版本的 python 里。

第二步:安装 MarkitDown

直接使用 pip 命令进行安装,完整命令如下:

python 复制代码
pip install markitdown[all]

MarkitDown 安装时可以选择相关依赖安装,上面的命令是安装了所有的可选依赖。

目前的可选依赖包括:

第三步:查看是否安装成功

查看是否安装成功的命令:pip show markitdown

安装成功后,会返回版本号、作者等信息,如下图:

MarkitDown 的两种使用方式

使用方式一:命令行(最简单)

打开命令提示符(cmd),根据需求输入相应命令并回车即可。

下面以 pdf 为例,word、excel、html 等文件转换方式一样。

python 复制代码
# 转换PDF并输出到终端
markitdown 需转换的pdf文件完整路径

# 转换PDF并保存至本地
markitdown 需转换的pdf文件完整路径 -o 保存结果.md的完整路径
或者
markitdown 需转换的pdf文件完整路径 > 保存结果.md的完整路径

这种命令行的方式适用于快速转换单个文件,仅一行命令就可搞定。

实例:假设 D 盘根目录下有一个 test.pdf 文件需要转换,完整命令如下。

python 复制代码
markitdown d:\test.pdf -o d:\test.md

使用方式二: python 代码调用

python 复制代码
from markitdown import MarkItDown
md = MarkItDown()
# 转换单个文件
result = md.convert("test.pdf")
print(result.text_content)
# 保存到文件
with open("test.md","w", encoding="utf-8") as f:
    f.write(result.text_content)

python 代码调用的方式,适用于批量处理,例如需要对多个 pdf 文件进行转换时,在上面代码中加入循环即可。

python 复制代码
import os
from markitdown import MarkItDown
md = MarkItDown()
for filename in os.listdir("pdf文件夹路径"):
    if filename.endswith(".pdf"):
        result = md.convert(f"pdf文件夹路径/{filename}")
        output_name = filename.replace(".pdf",".md")
        with open(f"输出文件夹路径/{output_name}","w", encoding="utf-8") as f:
            f.write(result.text_content)
            print(f"已转换:{filename}")

MarkitDown 进阶用法

进阶用法一:搭配大模型使用

MarkitDown 可以搭配大模型使用,识别图像内容并生成描述。

python 复制代码
from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI() #填写api_key
md = MarkItDown(llm_client=client, llm_model="gpt-4o", llm_prompt="optional custom prompt")
result = md.convert("example.jpg")
print(result.text_content)

该用法目前仅支持 pptx 和图片。

其中使用到的 openai 可直接使用 pip 命令安装:

python 复制代码
pip install openai

进阶用法二:支持第三方插件

MarkitDown 支持第三方插件。

如,可安装 markitdown-ocr 插件,为图片、扫描版 pdf 等进行文字识别。

安装命令:

python 复制代码
pip install markitdown-ocr

查看已经安装的插件列表:

python 复制代码
markitdown --list-plugins

插件使用方法:

python 复制代码
from markitdown import MarkItDown
from openai import OpenAI
md = MarkItDown(
    enable_plugins=True,
    llm_client=OpenAI(),#填写api_key
    llm_model="gpt-4o",
)
result = md.convert("document_with_images.pdf")
print(result.text_content)

总的来看,Markitdown 虽然只是解决了一个文件转换的小问题,但能在 GitHub 上面斩获超 10 万星,在当前 AI 时代下如此备受关注,说明它确实戳中了大家的实际应用刚需。

-end-

相关推荐
Unbelievabletobe8 小时前
解决了股票api接口盘后数据更新慢的问题
大数据·开发语言·python
lpd_lt9 小时前
AI Coding的常用Prompt技巧
python·ai·ai编程
小江的记录本9 小时前
【JVM虚拟机】堆内存分代模型:年轻代(Eden+Survivor)、老年代、元空间Metaspace(附《思维导图》+《面试高频考点清单》)
java·前端·jvm·后端·python·spring·面试
在繁华处9 小时前
Java从零到熟练(三):流程控制
java·开发语言·python
asdzx6710 小时前
使用 Python 快速提取 PDF 中的表格
python·pdf
无情的西瓜皮10 小时前
MCP协议实战:用Python从零搭建一个AI Agent工具服务器(保姆级教程)
服务器·人工智能·python·mcp
岁月宁静11 小时前
驾驭 AI 这匹野马:深入解析智能体 Harness 工程
vue.js·python
星恒随风12 小时前
Python 基础语法详解(一):从表达式、变量到数据类型
开发语言·笔记·python·学习
888CC++12 小时前
java 并发编程
java·开发语言·python