之前汇总过几个PPT生成工具,参考AI加持PPT制作,本文继续汇总。
Slides
基于Nano Banana Pro的开源(GitHub,12.1K Star,1.4K Fork)原生AI PPT生成应用:
- 支持上传任意模板图片
- 上传任意素材&智能解析
- 一句话/大纲/页面描述自动生成PPT
- 口头修改指定区域
- 一键导出可编辑
官网即可在线体验:
三种工作模式:
- 一句话生成
- 从大纲生成
- 从描述生成
关于风格模板,系统内置3个,支持上传用户自定义模板,也支持通过文字来描述风格,借助于系统生成模板:

PPTAgent
中科院计算所团队发表论文,并开源(GitHub,3.3K Star,407 Fork)PPT创作工具,能把文档自动转换成专业幻灯片。借鉴人类制作演示文稿的思维方式,通过两阶段处理流程,先分析参考幻灯片的模式,再生成结构清晰、视觉统一的新幻灯片。
把「大纲→逻辑→视觉」三步完全自动化,可大幅提高工作效率。
核心优势
- 动态内容生成:能将文档内容智能转化为适合幻灯片展示的形式,同时自动匹配相关图片,实现图文无缝融合
- 智能参考学习:无需人工标注,就能从现有幻灯片中学习布局模式和设计风格,生成风格统一的新演示文稿
- 全面质量评估:内置PPTEval框架,从内容准确性、设计美观度和逻辑连贯性三个维度对PPT进行评估。
bash
PPTAgent技术架构
├── 核心工作流
│ ├── 分析阶段(Induct)
│ │ ├── 参考PPT解析(presentation模块)
│ │ │ ├── 布局结构提取
│ │ │ ├── 内容组织模式识别
│ │ │ └── 视觉元素分布分析
│ │ └── 模式库构建
│ │ ├── 幻灯片模板分类(slide_induction.json)
│ │ ├── 布局模式抽象(如"单中心热图+横向要点")
│ │ └── 设计风格特征提取
│ └── 生成阶段(PPTGen)
│ ├── 输入文档处理(document模块)
│ │ ├── Markdown/PDF内容解析
│ │ ├── 关键信息提取
│ │ └── 内容结构化重组
│ ├── 幻灯片生成
│ │ ├── 大纲构建(基于金字塔原则)
│ │ ├── 布局匹配(参考模式库)
│ │ ├── 图文融合(image_generation工具)
│ │ └── 样式统一(Design角色定义规范)
│ └── 质量评估(PPTEval框架)
│ ├── 内容准确性校验
│ ├── 设计美观度评分
│ └── 逻辑连贯性检查
├── 核心模块
│ ├── 主体控制(agent.py)
│ │ ├── 多角色协同调度(Research/Design等角色)
│ │ ├── 工具调用管理
│ │ └── 工作流状态维护
│ ├── 语言模型接口(llms.py)
│ │ ├── LLM/AsyncLLM封装
│ │ ├── 多模型适配(GPT-4o/Qwen2.5等)
│ │ └── 长文本处理优化
│ ├── 视觉处理工具
│ │ ├── 图像生成(image_generation)
│ │ ├── 图像标注(image_caption)
│ │ └── 图表识别与转换
│ └── 交互层(pptagent_ui)
│ ├── 前端界面(src目录)
│ ├── 后端服务(backend.py)
│ └── 进度展示与结果下载
└── 支撑系统
├── 模板系统
│ ├── 预设模板(cip/hit/default等)
│ ├── 动态模板生成规则
│ └── 样式配置(配色/字体/栅格)
├── 工具链
│ ├── 文档分析(document_analyze)
│ ├── 幻灯片检查(inspect_slide)
│ └── 最终导出(finalize)
└── 依赖环境
├── 容器化部署(Docker)
├── Web框架(FastAPI/Uvicorn)
└── 文档处理库(python-pptx/Pillow等)
两阶段工作模式:
- 分析阶段(Induct):
- 解析参考PPT文件,提取布局结构
- 分析内容组织方式和视觉元素分布
- 建立幻灯片生成的模式库
- 生成阶段(PPTGen):
- 解析输入文档,提取关键信息
- 根据分析阶段得到的模式,构建幻灯片大纲
- 生成符合风格的幻灯片内容和布局
核心模块
- presentation:负责解析PPT文件
- document:处理输入的markdown文档
agent.py:定义核心代理类,协调各模块工作llms.py:封装LLM和AsyncLLM接口,处理语言模型交互induct.py:用于第一阶段的PPT分析功能pptgen.py:用于第二阶段的PPT生成功能pptagent_ui:提供Web界面,方便用户操作
PPTEval从三个维度进行打分:
- 内容(Content):检查幻灯片内容的准确性和相关性
- 设计(Design):评估视觉吸引力和风格一致性
- 连贯性(Coherence):确保整体逻辑流畅,观点衔接自然
技术栈
| 技术类别 | 具体内容 |
|---|---|
| Web框架 | FastAPI、Uvicorn |
| 文档处理 | python-pptx、pdf2image、Pillow |
| 语言模型 | 支持GPT-4.1等70B+参数模型 |
| 视觉模型 | Qwen2.5-VL-7B-Instruct等7B+参数模型 |
| 开发工具 | PyTest、Docker、Git |
| 其他依赖 | aiohttp、beautifulsoup4、jinja2、PyYAML等 |
优点
- 开源免费,可自由定制和二次开发
- 采用两阶段生成模式,效果更接近专业水准
- 提供UI界面,使用门槛低
- 支持多种输入格式和自定义模板
- 包含评估框架,方便优化生成结果
缺点
- 系统要求较高,推荐使用70B+参数的LLM
- 对硬件配置有一定要求,推荐CUDA或MPS支持
- 目前不支持Windows系统
- 复杂幻灯片的解析可能存在局限性
- 图片生成依赖外部资源,有时不够精准
实战
部署方式:
- Docker、Docker Compose
- 源码
bash
docker run -dt --gpus all --ipc=host --name pptagent \
-e OPENAI_API_KEY=$OPENAI_API_KEY \
-e MINERU_API=$MINERU_API \
-p 9297:9297 \
-p 8088:8088 \
-v $HOME:/root \
forceless/pptagent
源码
bash
git clone https://github.com/icip-cas/PPTAgent.git
cd PPTAgent
pip install -e .[full]
python pptagent_ui/backend.py
注意:需提前安装Python 3.11+、LibreOffice、Chrome驱动、poppler-utils等依赖
未来线路图:
- 多语言支持增强,特别是对中文排版的优化
- 移动端适配,支持手机端编辑和预览
- 更强大的图表生成功能,直接从数据自动生成可视化
- 团队协作功能,支持多人实时编辑同一PPT
- 与主流文档工具(如Notion)的深度集成
LangChat Slides
开源(GitHub,195 Star,18 Fork)基于生成式AI的智能幻灯片生成工具,体验地址。利用@antv/infographic可视化引擎,用户只需输入自然语言描述,即可实时生成结构清晰、设计精美的信息图幻灯片。
核心能力
- AI驱动:通过自然语言描述即时生成专业幻灯片
- 实时流式:所见即所得,AI思考的同时幻灯片即刻渲染
- 智能布局:基于声明式可视化语法,自动适配最佳排版,告别繁琐的PPT拖拽
- 对话式编辑:通过与AI对话进行优化
- 多页支持:生成多张幻灯片,支持缩略图导航
- 丰富模板:30+内置信息图模板(时间轴、图表、列表等)
- 主题定制:支持浅色/深色模式,多种配色方案
- 便捷导出:一键导出为PDF、PNG、SVG、JPG、WebP、PPT
视觉体验
- 现代UI:基于Shadcn UI和Tailwind CSS构建,界面简洁、精致、极致体验
- 响应式布局:完美适配不同屏幕尺寸
- 实时预览:输入或调整时即时反馈
- 代码编辑器:直接查看和编辑幻灯片语法,实时渲染
智能化
- 智能理解:将自然语言解读为合适的布局
- 流式响应:AI思考和生成时实时更新内容
- Markdown兼容:自动处理带Markdown代码块的AI响应
- 多模型支持:兼容GPT-4等模型
高级功能
- 替换/追加模式:选择替换或追加新幻灯片
- 自定义幻灯片:使用信息图语法手动创建幻灯片
- 幻灯片管理:添加空白幻灯片、清空所有幻灯片、切换页面
- 缩放控制:画布缩放范围从50%到250%
- 快捷键支持:高效的工作流程
- 国际化支持:内置中文和英文语言选项
技术栈
- Vue 3:渐进式JS框架,使用组合式API
- TS:类型安全的开发体验
- Vite 7:下一代前端构建工具
- Tailwind CSS v4:实用优先的CSS框架,快速UI开发
- Shadcn Vue:美观、可访问、可定制的UI组件
- Lucide Vue Next:现代图标库
- Pinia:直观、类型安全、灵活的Vue状态管理
- html2canvas:将DOM转换为画布
- jspdf:从图片生成PDF
- PptxGenJS:生成PPT文件
- ESLint:代码质量和风格检查
- pnpm:快速、节省磁盘空间的包管理器
@antv/infographic:强大的信息图可视化库- 实时渲染和编辑
- 导出为PNG、SVG、PDF
- 支持主题和配色方案
- OpenAI API:前端直接集成
实战
bash
git clone https://github.com/LangChat/langchat-slides.git
cd langchat-slides
pnpm install
cp .env.example .env
vim .env
pnpm dev
pnpm build
浏览器访问http://localhost:5173,开始体验。
创建幻灯片
- 描述需求
- 选择模板
- 设置页码
- 实时生成
- 手动编辑:在代码编辑器中直接编辑信息图语法
- 导出:点击导出按钮下载为PDF、PNG、SVG、JPG、WebP、PPT
高级功能
- 对话式编辑,如把时间轴改成横向
- 手动幻灯片
- 点击"自定义幻灯片"手动输入信息图语法
- 支持所有
@antv/infographic模板
- 幻灯片管理
- 点击"+"添加空白幻灯片
- 点击缩略图在页面间导航
- 使用工具栏清空所有幻灯片或切换替换/追加模式