banana-slides：把“做PPT”变成一次对话的开源项目

如果你也经历过"内容有了，但排版/配图/风格统一太耗时"的 PPT 痛点，banana-slides 这类"AI 原生做幻灯片"的项目会非常对胃口：它主打用一句话/一份大纲/逐页描述来生成整套演示文稿，并且支持用自然语言继续"口头改稿"，走向它在 README 里称为 "Vibe PPT" 的工作方式。

banana-slides 是什么？

banana-slides 是一个开源的AI 原生 PPT 生成应用 ：围绕 nano banana pro 的能力来做"更像设计成品"的页面生成，提供从内容组织、素材解析、到导出 PPTX/PDF 的一条龙流程。仓库首页也写得很直接：支持上传任意模板图片、上传素材并解析、从一句话/大纲/页面描述生成 PPT、还能口头修改指定区域并一键导出。

截至我查询 GitHub 页面时，项目热度很高（star/fork 数量在仓库页可见）。

它解决的"关键痛点"是什么？

banana-slides 在项目缘起里提到，很多传统 AI PPT 工具的问题集中在：模板固定、自由度低、改动困难、产出同质化、素材质量一般、图文排版割裂等。它希望同时满足"快"和"美"，把 PPT 从"机械排版"变成更接近"对话式创作"。

核心功能亮点

banana-slides的核心功能点主要包括以下几个方面，涵盖了从创意输入到成品导出的全流程：

1.多输入方式生成

它不像传统工具只能输入一个标题，它支持三种输入方式：

一句话生成: 只输入一个主题（如"2025年AI发展趋势"），AI自动发散思维。
大纲模式: 如果你已经想好了目录结构，可以直接贴进去，AI帮你填充内容。
内容描述模式: 如果你有一篇现成的文章或报告摘要，贴进去，AI会根据你的文字提取重点生成PPT。
参考素材支持: 支持上传PDF、Word等文档作为参考资料，让生成的PPT内容更符合你的资料。

2.模版系统

支持多种预设模版，改变字体、配色和布局风格。
支持自主上传模版

3.智能大纲与内容生成

结构化大纲: 使用大语言模型生成逻辑严密的分层大纲（章节 -> 页面 -> 要点）。
内容填充: 根据大纲，自动撰写每一页的具体正文，控制字数，确保适合PPT展示。
实时浏览和生成：如果觉得AI生成的某页文字不好，可以直接在网页上修改，手动微调。

4.PPT的生成和导出

自动配图: 根据每一页的文字内容，自动生成风格统一的高清背景图或插图。
风格一致性: 可以选择不同的模版风格，AI生成的图片会贴合这个风格。
导出: 支持PPTX和PDF两种格式

5.模型配置

支持OpenAI 兼容接口和Google Gemini

特点分析

1.相比notebooklm生成ppt的功能（生成之后常常还需要多轮手动修改），banana-slides支持Vibe口头调整大纲和描述，PPT生成之后，对不满意的区域进行进一步修改。

2.notebooklm在基于大量文件整理再生成ppt的表现优于banana-slides。

3.banana-slides生图这一过程依托于大模型的图片模型，此demo使用的是OpenAI的dall-e模型，会有大量文字乱码。使用nano banana生图情况会有所提升。

快速上手：Docker Compose

README 给了非常清晰的 Docker Compose 部署步骤：克隆项目、复制 .env、配置模型 API Key，然后启动服务。

你在可以直接贴这段：

复制代码

git clone https://github.com/Anionex/banana-slidescd banana-slides
cp .env.example .env# 编辑 .env，配置 AI_PROVIDER_FORMAT 以及对应的 API KEY
docker compose up -d

启动后访问（README 写的是默认端口）：

前端：http://localhost:3000
后端：http://localhost:5000

另外它在 .env 里同时给了 gemini / openai 两种 provider 格式的配置示例（通过 AI_PROVIDER_FORMAT 切换）。

技术架构一眼看懂：前后端分离，工程化完整

前端：React 18 + TypeScript、Vite、Zustand、React Router v6、Tailwind CSS、Axios、@dnd-kit 等。
后端：Python 3.10+、Flask 3.0、SQLite + Flask-SQLAlchemy、并发用 ThreadPoolExecutor；PPT 处理用 python-pptx，图片处理用 Pillow；AI 能力对接 Google Gemini API。

适合谁用？

README 列了非常典型的五类人群：

1）小白：零门槛做出美观 PPT；2）PPT 专业人士：拿来找版式/配图灵感；3）教育工作者：快速把课程内容变成配图课件；4）学生：作业 Pre 更专注内容；5）职场人士：提案、产品介绍快速可视化。

项目还在进化：接下来值得期待什么？

它的开发计划里提到正在做/规划的方向包括：对已生成图片做元素分割与进一步编辑（segment + inpaint）、网络搜索、Agent 模式、多语种支持、用户系统等。