banana-slides:把“做PPT”变成一次对话的开源项目

如果你也经历过"内容有了,但排版/配图/风格统一太耗时"的 PPT 痛点,banana-slides 这类"AI 原生做幻灯片"的项目会非常对胃口:它主打用一句话/一份大纲/逐页描述来生成整套演示文稿,并且支持用自然语言继续"口头改稿",走向它在 README 里称为 "Vibe PPT" 的工作方式。

banana-slides 是什么?

banana-slides 是一个开源的AI 原生 PPT 生成应用 :围绕 nano banana pro 的能力来做"更像设计成品"的页面生成,提供从内容组织、素材解析、到导出 PPTX/PDF 的一条龙流程。仓库首页也写得很直接:支持上传任意模板图片、上传素材并解析、从一句话/大纲/页面描述生成 PPT、还能口头修改指定区域并一键导出。

截至我查询 GitHub 页面时,项目热度很高(star/fork 数量在仓库页可见)。

它解决的"关键痛点"是什么?

banana-slides 在项目缘起里提到,很多传统 AI PPT 工具的问题集中在:模板固定、自由度低、改动困难、产出同质化、素材质量一般、图文排版割裂等。它希望同时满足"快"和"美",把 PPT 从"机械排版"变成更接近"对话式创作"。

核心功能亮点

banana-slides的核心功能点主要包括以下几个方面,涵盖了从创意输入到成品导出的全流程:

1.多输入方式生成

它不像传统工具只能输入一个标题,它支持三种输入方式:

  • 一句话生成: 只输入一个主题(如"2025年AI发展趋势"),AI自动发散思维。

  • 大纲模式: 如果你已经想好了目录结构,可以直接贴进去,AI帮你填充内容。

  • 内容描述模式: 如果你有一篇现成的文章或报告摘要,贴进去,AI会根据你的文字提取重点生成PPT。

  • 参考素材支持: 支持上传PDF、Word等文档作为参考资料,让生成的PPT内容更符合你的资料。

2.模版系统

  • 支持多种预设模版,改变字体、配色和布局风格。

  • 支持自主上传模版

3.智能大纲与内容生成

  • 结构化大纲: 使用大语言模型生成逻辑严密的分层大纲(章节 -> 页面 -> 要点)。

  • 内容填充: 根据大纲,自动撰写每一页的具体正文,控制字数,确保适合PPT展示。

  • 实时浏览和生成:如果觉得AI生成的某页文字不好,可以直接在网页上修改,手动微调。

4.PPT的生成和导出

  • 自动配图: 根据每一页的文字内容,自动生成风格统一的高清背景图或插图。

  • 风格一致性: 可以选择不同的模版风格,AI生成的图片会贴合这个风格。

  • 导出: 支持PPTX和PDF两种格式

5.模型配置

支持OpenAI 兼容接口和Google Gemini

特点分析

1.相比notebooklm生成ppt的功能(生成之后常常还需要多轮手动修改),banana-slides支持Vibe口头调整大纲和描述,PPT生成之后,对不满意的区域进行进一步修改。

2.notebooklm在基于大量文件整理再生成ppt的表现优于banana-slides。

3.banana-slides生图这一过程依托于大模型的图片模型,此demo使用的是OpenAI的dall-e模型,会有大量文字乱码。使用nano banana生图情况会有所提升。

快速上手:Docker Compose

README 给了非常清晰的 Docker Compose 部署步骤:克隆项目、复制 .env、配置模型 API Key,然后启动服务。

你在可以直接贴这段:

复制代码
git clone https://github.com/Anionex/banana-slidescd banana-slides
cp .env.example .env# 编辑 .env,配置 AI_PROVIDER_FORMAT 以及对应的 API KEY
docker compose up -d

启动后访问(README 写的是默认端口):

另外它在 .env 里同时给了 gemini / openai 两种 provider 格式的配置示例(通过 AI_PROVIDER_FORMAT 切换)。

技术架构一眼看懂:前后端分离,工程化完整

  • 前端:React 18 + TypeScript、Vite、Zustand、React Router v6、Tailwind CSS、Axios、@dnd-kit 等。

  • 后端:Python 3.10+、Flask 3.0、SQLite + Flask-SQLAlchemy、并发用 ThreadPoolExecutor;PPT 处理用 python-pptx,图片处理用 Pillow;AI 能力对接 Google Gemini API。

适合谁用?

README 列了非常典型的五类人群:

1)小白:零门槛做出美观 PPT;2)PPT 专业人士:拿来找版式/配图灵感;3)教育工作者:快速把课程内容变成配图课件;4)学生:作业 Pre 更专注内容;5)职场人士:提案、产品介绍快速可视化。

项目还在进化:接下来值得期待什么?

它的开发计划里提到正在做/规划的方向包括:对已生成图片做元素分割与进一步编辑(segment + inpaint)、网络搜索、Agent 模式、多语种支持、用户系统等。

相关推荐
2501_9307077820 小时前
使用C#代码在 PowerPoint 演示文稿中插入表格
开发语言·c#·powerpoint
小真zzz2 天前
2026年终极解决方案:为什么说ChatPPT重新定义了智能演示?
人工智能·powerpoint·ppt·chatppt·aippt
chatexcel2 天前
从Excel到PPT:如何利用自动化工具重构数据汇报流程
自动化·powerpoint·excel
启途AI3 天前
告别重做,精准修改:ChatPPT如何让Nano Banana的PPT“指哪改哪”?
人工智能·powerpoint·ppt
启途AI3 天前
圈画即改,对话生成:这款AIPPT工具重新定义PPT编辑
人工智能·powerpoint·ppt
盘古工具3 天前
演示文稿保护:两种PPT加密方法全解析
windows·powerpoint
2501_930707783 天前
使用C#代码在 PowerPoint 中创建编号或项目符号列表
开发语言·c#·powerpoint
E_ICEBLUE5 天前
PPT 批量转图片:在 Web 预览中实现翻页效果(C#/VB.NET)
c#·powerpoint·svg
2501_930707786 天前
使用 C# .NET 从 PowerPoint 演示文稿中提取背景图片
c#·powerpoint·.net