文章目录
- 概述
- [一、问题背景:为什么 PPT 这么耗时间?](#一、问题背景:为什么 PPT 这么耗时间?)
- [二、核心思路概览:把 PPT 拆成两步](#二、核心思路概览:把 PPT 拆成两步)
- [三、阶段一:用 LLM 自动生成高质量 PPT 大纲](#三、阶段一:用 LLM 自动生成高质量 PPT 大纲)
-
- [3.1 角色定位:让模型成为"专业 PPT 设计师"](#3.1 角色定位:让模型成为“专业 PPT 设计师”)
- [3.2 大纲应该长什么样?](#3.2 大纲应该长什么样?)
- [3.3 研发视角:如何把这一步"产品化"](#3.3 研发视角:如何把这一步“产品化”)
- [四、阶段二:用 Nano Banana Pro 生成 PPT 单页截图](#四、阶段二:用 Nano Banana Pro 生成 PPT 单页截图)
-
- [4.1 工作流概览:一页一图,一图一插](#4.1 工作流概览:一页一图,一图一插)
- [4.2 核心提示词拆解](#4.2 核心提示词拆解)
- [4.3 实际效果与社区反馈](#4.3 实际效果与社区反馈)
- 五、把工作流工程化:从个人技巧到工具产品
- 六、实战指南:你可以如何复刻这套工作流?
-
- [6.1 准备阶段](#6.1 准备阶段)
- [6.2 步骤一:用 LLM 生成 PPT 大纲与文稿](#6.2 步骤一:用 LLM 生成 PPT 大纲与文稿)
- [6.3 步骤二:按页调用图像模型生成 PPT 单页图](#6.3 步骤二:按页调用图像模型生成 PPT 单页图)
- [6.4 步骤三:装配与修订](#6.4 步骤三:装配与修订)
- [七、局限与展望:为什么没有完美替代 Gamma?](#七、局限与展望:为什么没有完美替代 Gamma?)
- 八、结语

概述
过去做一份像样的 PPT,往往要经历"找模板 → 抠配色 → 调版式 → 配图片 → 改十遍"的折磨流程。
现在可以借助 Nano Banana Pro(Gemini 图像能力),不到一小时就完成了一套质感很强的 PPT,自己只负责"把图往 PPT 里一摆"。
一、问题背景:为什么 PPT 这么耗时间?
在多数技术团队里,做 PPT 其实有两类隐性成本:
- 认知成本:怎么把甲方需求、业务逻辑、技术细节合理拆解为可呈现的结构。
- 设计成本:配色、布局、图标、插图、留白,这些都需要设计经验。
传统做法往往是:内容用 Word 或 Notion 写好,再手动搬到 PPT,然后对着模板一点点改,既耗时又难看。
而现在的趋势是:内容生成和视觉生成分离,前者由大语言模型(如 ChatGPT)负责,后者交给具备强图像生成能力的模型(如 Nano Banana Pro / Gemini 图像版),人类只做"导演"和"审稿"。
二、核心思路概览:把 PPT 拆成两步
一个非常清晰的两阶段流程:
- 先用 LLM 搞定"讲什么"------结构化 PPT 大纲与内容。
- 再用图像模型搞定"怎么呈现"------逐页生成 PPT 单页图片。
在这个体系下:
- ChatGPT(或同类 LLM)负责:
- 解读甲方要求
- 消化背景资料
- 输出版块清晰、数据保留完整的 PPT 大纲
- Nano Banana Pro 负责:
- 根据参考模板图学习风格
- 按页生成排版合理、配色统一的 PPT 单页截图(4K、16:9)
用户只需要:
- 准备输入(甲方需求、参考资料、示例模板图)。
- 审核、微调大纲。
- 把生成的单页图片插入 PowerPoint / Keynote / WPS 完成最终版。
95% 的 PPT 需求可以被这个流程覆盖,尤其适合汇报、方案、培训等标准化场景。
三、阶段一:用 LLM 自动生成高质量 PPT 大纲
3.1 角色定位:让模型成为"专业 PPT 设计师"
给 ChatGPT 的核心提示词是这样的(略做格式整理,保留关键结构):
text
你是一个专业的 PPT 设计师,
这是甲方的要求: >
这是做 PPT 可以参考的资料: >
请你按照这些内容,帮我整理一份 PPT 大纲,
一定把要求中的详细数据以及专业名词保留,仔细规划 PPT 大纲结构,用参考资料详细填充。
如果要求和资料有不明白的地方,请不要直接生成大纲,
先列点向我提问,我会仔细回答。
这个提示词包含几个非常关键的设计点:
- 角色设定:明确你是"专业的 PPT 设计师",而不是"普通写作助手",模型会更关注结构和呈现逻辑。
- 双源输入:把"甲方要求"和"参考资料"分开输入,方便模型区分约束与素材。
- 保留关键数据与术语:避免模型"过度归纳"把数字、指标、专有名词模糊掉。
- 先问再答机制:如果信息不清楚,请先提问而不是乱编,降低幻觉风险。
这类提示词,对开发者来说也有借鉴意义:在设计 AI 辅助工具时,把错误处理逻辑(不确定先提问)直接写在系统提示里,可以显著提升可靠性。
3.2 大纲应该长什么样?
一个成熟的 PPT 大纲,至少要包含以下几个维度:
- 章节划分(如:背景 → 痛点 → 方案 → 价值 → 规划)。
- 每一页的标题(与场景语言匹配)。
- 每一页的关键要点(项目符号或简要句子)。
- 需要重点保留的数据与图表说明(例如 KPI、对比表、流程图提示)。
整体 PPT 内容是一长段文本,由 ChatGPT 生成并作为"PPT 大纲 + 详细内容"一起提供给图像模型,用于后续视觉生成。
3.3 研发视角:如何把这一步"产品化"
如果你想做一款"AI 做 PPT"类工具,第一阶段可以做成一个后端服务:
- Input:
- 甲方需求文本(需求表单或自由输入)。
- 参考资料(需求文档、需求邮件、产品说明等)。
- Output:
- 结构化的 PPT JSON,大致结构例如:
json
{
"title": "xxx 解决方案路演",
"sections": [
{
"name": "一、行业背景",
"pages": [
{
"title": "行业发展趋势",
"bullets": [
"xxx 规模增长至...",
"xxx 技术成为关键..."
],
"metrics": [
{"name": "市场规模", "value": "1200 亿", "year": 2025}
]
}
]
}
]
}
这个 JSON 后面可以直接驱动图像生成,也可以用于导出原生 PPT(如用 python-pptx)或者 Web 端展示。
四、阶段二:用 Nano Banana Pro 生成 PPT 单页截图
4.1 工作流概览:一页一图,一图一插
- 随便从 PPT 模板网站或 WPS 里找个风格合适的模板页面,截图作为"风格图"。
- 每次只处理 PPT 的一页:
- 指定当前页的简短描述(十几个字 )。
- 附上完整的 PPT 上下文文本(前面用 ChatGPT 生成的整体内容)。
- 使用 Nano Banana Pro(Gemini 3 Pro image-preview 能力),按特定提示词生成"PPT 单页截图"。
- 生成的图片为 4K 分辨率、16:9 比例、无边框白边,直接插入 PowerPoint 中,一页一张图即可。
不到一小时,整套 PPT 的所有页面就都"自动出图"完成。
4.2 核心提示词拆解
全文提示词示例如下(为便于理解,这里拆行标注关键点):
text
请帮我生成 PPT 单页截图,我会直接插入到 PPT 里,
你需要参考风格图的颜色与色彩风格,
在此基础上结合我的 PPT 大纲,
用平面设计专家的角度,遵循最佳的平面设计原理。
采用美观的图标以及【宽松 / 紧凑】的布局,
当前需要生成的页面内容是:第二章的《痛点一:呼叫受理与调度"看不见、找不准"》。
这里是参考的风格图:<此处佬友随便从 PPT 模版网站或者是 WPS 里找个模版,截图一下>
这是我的 PPT 大纲:
<这里是结合老板和甲方让 ChatGPT 出的一个 PPT 大纲(包括了数据以及具体名字等等)>
请你直接生成 PPT 单页截图,
边缘不要有多余的边框或者是白边,
4k 分辨率,16:9 比例。
关键设计点说明:
- 明确输出形态:告诉模型要的是"PPT 单页截图",不是"插画"或"随便一张图",会影响布局风格。
- 指定风格参考图:通过上传一张模板截图,让模型"对齐"配色、字体风格、排版密度。
- 保留大纲上下文:不仅告诉它这一页的标题,还给出整份 PPT 的大纲和内容,让模型理解这一页在整体中的位置。
- 布局密度可控:用"宽松/紧凑"参数可以调节信息量与留白比例,适应不同场合(路演 vs 内部汇报)。
- 输出规格清晰:分辨率、比例、无边框要求写死,有利于直接插入 PPT 而不需要后期裁剪。
4.3 实际效果与社区反馈
由 Nano Banana Pro 生成的 PPT 页面截图,整体观感接近专业设计师出品:配图、图标、配色和布局都自动生成,人只负责选用。


另外还有一组来自 NotebookLM 的 PPT 例子,其核心思路类似:从笔记内容直接生成视觉化 PPT。


这说明:图像模型输出图片,再由用户装配成 PPT,是当前技术条件下兼顾质量与可控性的折中方案。
五、把工作流工程化:从个人技巧到工具产品
-
提示词工程产品化
个人技巧型 Prompt 正在被打包成工具内置模版,提供给非技术用户一键调用。
-
从"模型调用"到"场景工具"
技术上只是多次调用图像 + 文本模型,但产品形态则包装为:
- "AI 做 PPT"
- "AI 做小红书图文"
- "AI 生成路演 Deck"
-
高度可定制的流水线
对开发者来说,这套流程可以进一步 API 化:
- /generate_outline → LLM
- /render_slide → Image Model
- /export_pptx → PPT 生成器
再通过一个 Web UI 或 VSCode 插件,把整条链路串起来。
六、实战指南:你可以如何复刻这套工作流?
下面给出一个从零开始的实践路线,你可以按模块替换自己的技术栈。
6.1 准备阶段
- 选择语言模型:ChatGPT、Gemini、或者自部署的大模型,用于大纲生成与内容加工。
- 选择图像模型:Nano Banana Pro(Gemini 图像),或其他支持"图像 + 文本条件生成"的模型。
- 准备素材:
- 甲方/老板需求(哪怕是一堆聊天记录也可以)。
- 项目背景资料、数据、报告。
- 一张参考 PPT 模板页截图(从 Office 模板网站 / WPS 模板中选一页即可)。
6.2 步骤一:用 LLM 生成 PPT 大纲与文稿
- 使用类似楼主的提示词,设定模型为"专业 PPT 设计师",输入:
- 甲方要求
- 参考资料
- 要求模型输出:
- 完整 PPT 目录结构(章节 + 页)。
- 每页标题 + 3--5 个要点。
- 关键指标与数据点显式列出。
你可以进一步要求模型输出 JSON 结构,以便后续自动化处理。
6.3 步骤二:按页调用图像模型生成 PPT 单页图
对每一页,整理如下信息输入图像模型:
- 当前页标题:例如"痛点一:呼叫受理与调度'看不见、找不准'"。
- 当前页的关键要点摘要(可由大纲自动提取)。
- 整体 PPT 的大纲文本(作为上下文,帮助模型理解语境)。
- 参考风格图像(模板截图)。
提示词采用类似格式:
text
请生成一张 PPT 单页截图(4K 分辨率,16:9 比例),
我会直接把这张图插入到 PPT。
请参考我提供的风格图的颜色与整体视觉风格,
用平面设计专家的角度,遵循最佳平面设计原则,
采用美观的图标和【宽松 / 紧凑】布局。
当前页面的内容主题是:<本页标题与简要说明>。
这是整份 PPT 的大纲和相关内容(供你理解上下文):<大纲与文本>。
要求:
- 只输出一张完整的 PPT 单页截图
- 不要出现多余边框或白边
- 布局清晰、信息层级分明,适合商务汇报场景
高阶玩法:还可以加入 Logo、品牌色、字号规范等参数,进一步规范输出风格。
6.4 步骤三:装配与修订
- 把每页生成的图片按顺序插入 PPT。
- 对个别不满意的页面可以重新生成,调整提示词或更改布局密度参数。
- 如需可编辑文本,可考虑:
- 让 LLM 同时输出"可编辑版文案",在 PPT 中以文本框形式补充关键文字。
- 对某些图表页面,采用"图表框架 + 文本说明"的方式手工制作。
整体时间成本将主要花在:
- 确认内容逻辑。
- 审稿与少量重做。
而不再是画图、调颜色、对齐对象。
七、局限与展望:为什么没有完美替代 Gamma?
- 图像模型擅长直接输出"视觉成品",但对 PPT 这种"结构化 + 可编辑"文档的原生生成支持依然需要专门工程化实现。
- 自动生成的 PPT 很难完全满足所有场景,对一些严谨的技术汇报、学术演讲,还需要人工对内容与逻辑进行较深度的把关。
- 未来比较有前景的方向是:
- 多模态模型直接理解 JSON 大纲,并生成 PPTX 文件(不仅是图像)。
- 前端工具提供强交互编辑能力,让用户在 AI 生成的基础上继续调整模块结构。
但在现阶段,"Nano Banana Pro 出图 + 人手工装配"的方式已经可以在质量与效率之间取得非常好的平衡,足以支撑大量实际工作场景。
八、结语
对于开发者和技术爱好者来说,这背后的启发是:
- 真正的生产力提升,不在于"知道有哪个模型",而在于"把模型串成自己的工作流",再进一步把工作流打包为可复用的工具或服务。
- 即便你暂时不打算做产品,也可以先从这类高频任务(PPT、图文、报告)入手,给自己的日常工作提一档效率。
如果你经常被 PPT 折磨,不妨按照本文的思路实践一次:先让 ChatGPT 帮你写大纲,再用 Nano Banana Pro 生成整套页面,体会一下"一小时做完 PPT"的感觉,然后再考虑:要不要把它做成你自己的下一款小工具。
