用 Nano Banana Pro 一小时做完高质量 PPT：从提示词到完整工作流实战

文章目录

概述
[一、问题背景：为什么 PPT 这么耗时间？](#一、问题背景：为什么 PPT 这么耗时间？)
[二、核心思路概览：把 PPT 拆成两步](#二、核心思路概览：把 PPT 拆成两步)
[三、阶段一：用 LLM 自动生成高质量 PPT 大纲](#三、阶段一：用 LLM 自动生成高质量 PPT 大纲)
- [3.1 角色定位：让模型成为"专业 PPT 设计师"](#3.1 角色定位：让模型成为“专业 PPT 设计师”)
- [3.2 大纲应该长什么样？](#3.2 大纲应该长什么样？)
- [3.3 研发视角：如何把这一步"产品化"](#3.3 研发视角：如何把这一步“产品化”)
[四、阶段二：用 Nano Banana Pro 生成 PPT 单页截图](#四、阶段二：用 Nano Banana Pro 生成 PPT 单页截图)
- [4.1 工作流概览：一页一图，一图一插](#4.1 工作流概览：一页一图，一图一插)
- [4.2 核心提示词拆解](#4.2 核心提示词拆解)
- [4.3 实际效果与社区反馈](#4.3 实际效果与社区反馈)
五、把工作流工程化：从个人技巧到工具产品
六、实战指南：你可以如何复刻这套工作流？
- [6.1 准备阶段](#6.1 准备阶段)
- [6.2 步骤一：用 LLM 生成 PPT 大纲与文稿](#6.2 步骤一：用 LLM 生成 PPT 大纲与文稿)
- [6.3 步骤二：按页调用图像模型生成 PPT 单页图](#6.3 步骤二：按页调用图像模型生成 PPT 单页图)
- [6.4 步骤三：装配与修订](#6.4 步骤三：装配与修订)
[七、局限与展望：为什么没有完美替代 Gamma？](#七、局限与展望：为什么没有完美替代 Gamma？)
八、结语

概述

过去做一份像样的 PPT，往往要经历"找模板 → 抠配色 → 调版式 → 配图片 → 改十遍"的折磨流程。

现在可以借助 Nano Banana Pro（Gemini 图像能力），不到一小时就完成了一套质感很强的 PPT，自己只负责"把图往 PPT 里一摆"。

一、问题背景：为什么 PPT 这么耗时间？

在多数技术团队里，做 PPT 其实有两类隐性成本：

认知成本：怎么把甲方需求、业务逻辑、技术细节合理拆解为可呈现的结构。
设计成本：配色、布局、图标、插图、留白，这些都需要设计经验。

传统做法往往是：内容用 Word 或 Notion 写好，再手动搬到 PPT，然后对着模板一点点改，既耗时又难看。

而现在的趋势是：内容生成和视觉生成分离，前者由大语言模型（如 ChatGPT）负责，后者交给具备强图像生成能力的模型（如 Nano Banana Pro / Gemini 图像版），人类只做"导演"和"审稿"。

二、核心思路概览：把 PPT 拆成两步

一个非常清晰的两阶段流程：

先用 LLM 搞定"讲什么"------结构化 PPT 大纲与内容。
再用图像模型搞定"怎么呈现"------逐页生成 PPT 单页图片。

在这个体系下：

ChatGPT（或同类 LLM）负责：
- 解读甲方要求
- 消化背景资料
- 输出版块清晰、数据保留完整的 PPT 大纲
Nano Banana Pro 负责：
- 根据参考模板图学习风格
- 按页生成排版合理、配色统一的 PPT 单页截图（4K、16:9）

用户只需要：

准备输入（甲方需求、参考资料、示例模板图）。
审核、微调大纲。
把生成的单页图片插入 PowerPoint / Keynote / WPS 完成最终版。

95% 的 PPT 需求可以被这个流程覆盖，尤其适合汇报、方案、培训等标准化场景。

三、阶段一：用 LLM 自动生成高质量 PPT 大纲

3.1 角色定位：让模型成为"专业 PPT 设计师"

给 ChatGPT 的核心提示词是这样的（略做格式整理，保留关键结构）：

text 复制代码

你是一个专业的 PPT 设计师，
这是甲方的要求: >
这是做 PPT 可以参考的资料: >

请你按照这些内容，帮我整理一份 PPT 大纲，
一定把要求中的详细数据以及专业名词保留，仔细规划 PPT 大纲结构，用参考资料详细填充。

如果要求和资料有不明白的地方，请不要直接生成大纲，
先列点向我提问，我会仔细回答。

这个提示词包含几个非常关键的设计点：

角色设定：明确你是"专业的 PPT 设计师"，而不是"普通写作助手"，模型会更关注结构和呈现逻辑。
双源输入：把"甲方要求"和"参考资料"分开输入，方便模型区分约束与素材。
保留关键数据与术语：避免模型"过度归纳"把数字、指标、专有名词模糊掉。
先问再答机制：如果信息不清楚，请先提问而不是乱编，降低幻觉风险。

这类提示词，对开发者来说也有借鉴意义：在设计 AI 辅助工具时，把错误处理逻辑（不确定先提问）直接写在系统提示里，可以显著提升可靠性。

3.2 大纲应该长什么样？

一个成熟的 PPT 大纲，至少要包含以下几个维度：

章节划分（如：背景 → 痛点 → 方案 → 价值 → 规划）。
每一页的标题（与场景语言匹配）。
每一页的关键要点（项目符号或简要句子）。
需要重点保留的数据与图表说明（例如 KPI、对比表、流程图提示）。

整体 PPT 内容是一长段文本，由 ChatGPT 生成并作为"PPT 大纲 + 详细内容"一起提供给图像模型，用于后续视觉生成。

3.3 研发视角：如何把这一步"产品化"

如果你想做一款"AI 做 PPT"类工具，第一阶段可以做成一个后端服务：

Input：
- 甲方需求文本（需求表单或自由输入）。
- 参考资料（需求文档、需求邮件、产品说明等）。
Output：
- 结构化的 PPT JSON，大致结构例如：

json 复制代码

{
  "title": "xxx 解决方案路演",
  "sections": [
    {
      "name": "一、行业背景",
      "pages": [
        {
          "title": "行业发展趋势",
          "bullets": [
            "xxx 规模增长至...",
            "xxx 技术成为关键..."
          ],
          "metrics": [
            {"name": "市场规模", "value": "1200 亿", "year": 2025}
          ]
        }
      ]
    }
  ]
}

这个 JSON 后面可以直接驱动图像生成，也可以用于导出原生 PPT（如用 python-pptx）或者 Web 端展示。

四、阶段二：用 Nano Banana Pro 生成 PPT 单页截图

4.1 工作流概览：一页一图，一图一插

随便从 PPT 模板网站或 WPS 里找个风格合适的模板页面，截图作为"风格图"。
每次只处理 PPT 的一页：
- 指定当前页的简短描述（十几个字）。
- 附上完整的 PPT 上下文文本（前面用 ChatGPT 生成的整体内容）。
使用 Nano Banana Pro（Gemini 3 Pro image-preview 能力），按特定提示词生成"PPT 单页截图"。
生成的图片为 4K 分辨率、16:9 比例、无边框白边，直接插入 PowerPoint 中，一页一张图即可。

不到一小时，整套 PPT 的所有页面就都"自动出图"完成。

4.2 核心提示词拆解

全文提示词示例如下（为便于理解，这里拆行标注关键点）：

text 复制代码

请帮我生成 PPT 单页截图，我会直接插入到 PPT 里，
你需要参考风格图的颜色与色彩风格，
在此基础上结合我的 PPT 大纲，
用平面设计专家的角度，遵循最佳的平面设计原理。

采用美观的图标以及【宽松 / 紧凑】的布局，
当前需要生成的页面内容是：第二章的《痛点一：呼叫受理与调度"看不见、找不准"》。

这里是参考的风格图：<此处佬友随便从 PPT 模版网站或者是 WPS 里找个模版，截图一下>

这是我的 PPT 大纲：
<这里是结合老板和甲方让 ChatGPT 出的一个 PPT 大纲（包括了数据以及具体名字等等）>

请你直接生成 PPT 单页截图，
边缘不要有多余的边框或者是白边，
4k 分辨率，16:9 比例。

关键设计点说明：

明确输出形态：告诉模型要的是"PPT 单页截图"，不是"插画"或"随便一张图"，会影响布局风格。
指定风格参考图：通过上传一张模板截图，让模型"对齐"配色、字体风格、排版密度。
保留大纲上下文：不仅告诉它这一页的标题，还给出整份 PPT 的大纲和内容，让模型理解这一页在整体中的位置。
布局密度可控：用"宽松/紧凑"参数可以调节信息量与留白比例，适应不同场合（路演 vs 内部汇报）。
输出规格清晰：分辨率、比例、无边框要求写死，有利于直接插入 PPT 而不需要后期裁剪。

4.3 实际效果与社区反馈

由 Nano Banana Pro 生成的 PPT 页面截图，整体观感接近专业设计师出品：配图、图标、配色和布局都自动生成，人只负责选用。

另外还有一组来自 NotebookLM 的 PPT 例子，其核心思路类似：从笔记内容直接生成视觉化 PPT。

这说明：图像模型输出图片，再由用户装配成 PPT，是当前技术条件下兼顾质量与可控性的折中方案。

五、把工作流工程化：从个人技巧到工具产品

提示词工程产品化

个人技巧型 Prompt 正在被打包成工具内置模版，提供给非技术用户一键调用。
从"模型调用"到"场景工具"

技术上只是多次调用图像 + 文本模型，但产品形态则包装为：
- "AI 做 PPT"
- "AI 做小红书图文"
- "AI 生成路演 Deck"
高度可定制的流水线

对开发者来说，这套流程可以进一步 API 化：
- /generate_outline → LLM
- /render_slide → Image Model
- /export_pptx → PPT 生成器
  再通过一个 Web UI 或 VSCode 插件，把整条链路串起来。

六、实战指南：你可以如何复刻这套工作流？

下面给出一个从零开始的实践路线，你可以按模块替换自己的技术栈。

6.1 准备阶段

选择语言模型：ChatGPT、Gemini、或者自部署的大模型，用于大纲生成与内容加工。
选择图像模型：Nano Banana Pro（Gemini 图像），或其他支持"图像 + 文本条件生成"的模型。
准备素材：
- 甲方/老板需求（哪怕是一堆聊天记录也可以）。
- 项目背景资料、数据、报告。
- 一张参考 PPT 模板页截图（从 Office 模板网站 / WPS 模板中选一页即可）。

6.2 步骤一：用 LLM 生成 PPT 大纲与文稿

使用类似楼主的提示词，设定模型为"专业 PPT 设计师"，输入：
- 甲方要求
- 参考资料
要求模型输出：
- 完整 PPT 目录结构（章节 + 页）。
- 每页标题 + 3--5 个要点。
- 关键指标与数据点显式列出。

你可以进一步要求模型输出 JSON 结构，以便后续自动化处理。

6.3 步骤二：按页调用图像模型生成 PPT 单页图

对每一页，整理如下信息输入图像模型：

当前页标题：例如"痛点一：呼叫受理与调度'看不见、找不准'"。
当前页的关键要点摘要（可由大纲自动提取）。
整体 PPT 的大纲文本（作为上下文，帮助模型理解语境）。
参考风格图像（模板截图）。

提示词采用类似格式：

text 复制代码

请生成一张 PPT 单页截图（4K 分辨率，16:9 比例），
我会直接把这张图插入到 PPT。

请参考我提供的风格图的颜色与整体视觉风格，
用平面设计专家的角度，遵循最佳平面设计原则，
采用美观的图标和【宽松 / 紧凑】布局。

当前页面的内容主题是：<本页标题与简要说明>。

这是整份 PPT 的大纲和相关内容（供你理解上下文）：<大纲与文本>。

要求：
- 只输出一张完整的 PPT 单页截图
- 不要出现多余边框或白边
- 布局清晰、信息层级分明，适合商务汇报场景

高阶玩法：还可以加入 Logo、品牌色、字号规范等参数，进一步规范输出风格。

6.4 步骤三：装配与修订

把每页生成的图片按顺序插入 PPT。
对个别不满意的页面可以重新生成，调整提示词或更改布局密度参数。
如需可编辑文本，可考虑：
- 让 LLM 同时输出"可编辑版文案"，在 PPT 中以文本框形式补充关键文字。
- 对某些图表页面，采用"图表框架 + 文本说明"的方式手工制作。

整体时间成本将主要花在：

确认内容逻辑。
审稿与少量重做。

而不再是画图、调颜色、对齐对象。

七、局限与展望：为什么没有完美替代 Gamma？

图像模型擅长直接输出"视觉成品"，但对 PPT 这种"结构化 + 可编辑"文档的原生生成支持依然需要专门工程化实现。
自动生成的 PPT 很难完全满足所有场景，对一些严谨的技术汇报、学术演讲，还需要人工对内容与逻辑进行较深度的把关。
未来比较有前景的方向是：
- 多模态模型直接理解 JSON 大纲，并生成 PPTX 文件（不仅是图像）。
- 前端工具提供强交互编辑能力，让用户在 AI 生成的基础上继续调整模块结构。

但在现阶段，"Nano Banana Pro 出图 + 人手工装配"的方式已经可以在质量与效率之间取得非常好的平衡，足以支撑大量实际工作场景。

八、结语

对于开发者和技术爱好者来说，这背后的启发是：

真正的生产力提升，不在于"知道有哪个模型"，而在于"把模型串成自己的工作流"，再进一步把工作流打包为可复用的工具或服务。
即便你暂时不打算做产品，也可以先从这类高频任务（PPT、图文、报告）入手，给自己的日常工作提一档效率。

如果你经常被 PPT 折磨，不妨按照本文的思路实践一次：先让 ChatGPT 帮你写大纲，再用 Nano Banana Pro 生成整套页面，体会一下"一小时做完 PPT"的感觉，然后再考虑：要不要把它做成你自己的下一款小工具。