pptx2md - 将PPT文件转换成Markdown

将 Powerpoint pptx 文件转换为 markdown 的工具。

GithubGitHub - ssine/pptx2md:pptx 到 markdown 的转换器

更多AI开源软件: 发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

主要功能

支持保留以下格式:

  • 标题。支持具有模糊匹配的自定义目录。
  • 具有任意深度的列表。
  • 带有**粗体**、*斜体*、颜色和超链接的文本
  • 图片。它们被提取到图像文件中,并插入相对路径。
  • 具有合并单元格的表格。
  • 从上到下,然后从左到右的区块顺序。

支持输出为如下格式:

安装和使用

安装

您需要在系统上安装 **3.10** 版本高于 *Python* 和 *pip*,然后在终端中运行:

复制代码
pip install pptx2md
用法

安装后,使用命令将 pptx 文件转换为 markdown。pptx2md [pptx filename]​

默认输出文件名为 ,提取(并插入到 .md 中)的任何图片都将放置在文件夹中。out.md/img/​

**注意:**不支持较旧的 .ppt 文件,请先将它们转换为新的 .pptx 版本。

**升级和移除:**

复制代码
pip install --upgrade pptx2md

pip uninstall pptx2md

自定义标题

默认情况下,此工具将所有 pptx 标题解析为 markdown 标题,以获得分层目录,在文件中提供预定义的标题列表并为其提供参数。level 1-t​

这是一个示例标题文件 (titles.txt):

复制代码
Heading 1
  Heading 1.1
    Heading 1.1.1
  Heading 1.2
  Heading 1.3
Heading 2
  Heading 2.1
  Heading 2.2
    Heading 2.1.1
    Heading 2.1.2
  Heading 2.3
Heading 3

开头带有空格的第一行被视为第二级标题,空格数是缩进的单位。在这种情况下, 将输出为 .由于它的开头有两个空格,所以 2 是标题缩进的单位,所以有 4 个空格时将输出为 。标题文本进行模糊匹配,不匹配的 pptx 标题将被视为最深的标题。 Heading 1.1## Heading 1.1 Heading 1.1.1### Heading 1.1.1​

将其与 . 一起使用。pptx2md [filename] -t titles.txt​

完整参数

  • -t [filename]提供标题文件
  • -o [filename]输出文件的路径
  • -i [path]提取的图片目录
  • --image-width [width]图片的最大宽度,以 px 为单位。如果设置,图像将作为 html img 标签放置。
  • --disable-image禁用图像提取
  • --disable-escaping不要尝试转义特殊字符
  • --disable-notes不添加 Presenter 注释
  • --disable-wmf保持 WMF 格式的映像不变(避免在 Linux 下出现异常)
  • --disable-color在 HTML 中禁用颜色标签
  • --enable-slidesDeliniate Slides ,如果您想将 PPTX 幻灯片转换为 Markdown 幻灯片,这会有所帮助\n---\n
  • --try-multi-column尝试检测多柱玻片(非常慢)
  • --min-block-size [size]要输出的文本块的最小字符数
  • --wiki / --mdk如果你碰巧在使用 TiddlyWiki 或 Madoko,这个参数会输出相应的标记语言
  • --qmd输出到用于 Quarto 支持的演示文稿的 QMD 标记语言
  • --page [number]仅转换指定的页面
  • --keep-similar-titles保留相似的标题,并在重复的幻灯片标题中添加"(续)"

注意:如果需要,请安装 wand 以获得更好的成功转换 wmf 图像的机会。

API 使用

您还可以在 Python 代码中以编程方式使用 pptx2md:

复制代码
from pptx2md import convert, ConversionConfig
from pathlib import Path

# Basic usage
convert(
    ConversionConfig(
        pptx_path=Path('presentation.pptx'),
        output_path=Path('output.md'),
        image_dir=Path('img'),
        disable_notes=True
    )
)

该类接受与命令行参数相同的参数:ConversionConfig​

  • pptx_path:输入 PPTX 文件的路径(必填)
  • output_path:输出 markdown 文件的路径(必填)
  • image_dir:提取图像的目录(必需)
  • title_path: 自定义标题文件的路径
  • image_width:图像的最大宽度(以 px 为单位)
  • disable_image:跳过图像提取
  • disable_escaping:跳过转义特殊字符
  • disable_notes:跳过演示者注释
  • disable_wmf:跳过 WMF 图像转换
  • disable_color:跳过 HTML 中的颜色标签
  • enable_slides:添加幻灯片分隔符
  • try_multi_column:尝试检测多列幻灯片
  • min_block_size:最小文本块大小
  • wiki:以 TiddlyWiki 格式输出
  • mdk:以 Madoko 格式输出
  • qmd:以四开格式输出
  • page:仅转换指定的页码
  • keep_similar_titles: 保留带有"(续)"后缀的相似标题
相关推荐
Watermelo6172 分钟前
探究TOON的价值边界:比JSON更优的大模型友好数据格式?
数据结构·人工智能·语言模型·自然语言处理·数据挖掘·数据分析·json
模型启动机3 分钟前
DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案
人工智能·ai·大模型·ocr
德育处主任Pro4 分钟前
『n8n』环境搭建
人工智能·aigc·n8n
GIS学姐嘉欣5 分钟前
新中地GIS开发校企联合实训 | 山东理工大学优秀作品(1)广州市智慧城市监测平台
人工智能·智慧城市
我是宝库6 分钟前
Turnitin系统查英文论文AI率,准吗?
人工智能·论文ai率·turnitin系统·英文查重·aigc检测·英文ai率·英文查ai率
知乎的哥廷根数学学派6 分钟前
基于高阶统计量引导的小波自适应块阈值地震信号降噪算法(MATLAB)
网络·人工智能·pytorch·深度学习·算法·机器学习·matlab
墨北小七8 分钟前
CNN深度学习模型在小说创作领域的应用
人工智能·深度学习·cnn
marteker8 分钟前
当人工智能代理成为消费者
人工智能·搜索引擎·百度
Yeats_Liao13 分钟前
昇腾910B与DeepSeek:国产算力与开源模型的架构适配分析
人工智能·python·深度学习·神经网络·机器学习·架构·开源
cici1587414 分钟前
基于光流场的Demons算法MATLAB实现
人工智能·算法·matlab