前言
深夜十一点,你盯着电脑屏幕,PPT的第三页改了六遍依然不够满意。模板翻了几十个,配色怎么调都别扭,老板明天早上就要看汇报材料------这种内耗,每个职场人都经历过。
但如果我告诉你,现在的AI已经可以一句话生成整套带动态转场的演示文稿呢?不是那种套模板出来的呆板幻灯片,而是带有2K/4K高清图片、平滑视频转场、甚至支持无限循环封面视频的专业级PPT。
这就是今天的主角:Claude Code + NanoBanana PPT Skills。作为一个开源项目,它已在GitHub上获得了超过2000颗星,被开发者归藏(op7418)创造出来,目标是让PPT制作从"体力活"变成"一次对话"。
本文将带你从零开始,深入理解这个组合的工作原理、完整安装步骤以及实战操作指南。

一、背景知识:Claude Code 的 Skills 机制
在正式介绍 NanoBanana PPT Skills 之前,我们需要先理解一个关键概念:什么是 Agent Skills?
根据 Claude Code 官方文档,技能(Skill)是由指令、脚本和资源组成的模块化功能包,能够扩展 Claude 智能体的能力。这些技能存放在特定目录下(每个技能一个文件夹),当 Claude 判断某个技能与当前用户请求相关时,便会自动加载相应技能来完成任务。
Skills 的核心设计理念是 "渐进式披露" (Progressive Disclosure),信息分为三个层次:
- 元数据(Metadata)------第一层:每个技能的 SKILL.md 文件开头都有 YAML 元信息,包括技能的名称和描述。Claude 启动时会预加载所有已安装技能的元数据,了解每个技能"能干什么"。
- 技能主体(SKILL.md 内容)------第二层:当 Claude 判断某个技能与当前任务相关,它会进一步读取完整的技能指令文件,获得详细的工作流指导。
- 附加文件和脚本------第三层:对于复杂场景,技能文件夹中可以包含 Python 脚本或额外说明文档,Claude 仅在需要时才会加载或运行它们。
这种设计让 Skills 既能包含海量专业知识,又不会一次性撑爆上下文窗口。更重要的是,一旦技能被触发,Claude Code 就不再通过大模型生成的方式去执行任务中的具体处理点,而是通过调用 Skill 中的脚本来完成任务,效率和可靠性都大幅提升。
简单来说:Skill 本质上是一个 SOP(标准作业程序)能力包------包含核心指令(SKILL.md)、参考文档(references/)、自动化脚本(scripts/)和视觉资产(assets/),装进 Claude Code 后自动生效。写一次,永远按最高标准执行,还能打包分享给别人用。
二、NanoBanana PPT Skills 是什么?
NanoBanana PPT Skills 是一个开源 AI 驱动演示文稿生成工具,由开发者归藏(op7418)创建。它利用 AI 自动分析文档内容,生成高质量 PPT 图片和转场视频,为用户提供从内容提取到交互式视频输出的完整自动化流程。
核心能力
- AI 驱动的图像生成:支持生成 2K/4K 高分辨率 PPT 图片,画面细腻、专业感十足。
- 动态视频转场:结合可灵 AI 平台,在幻灯片之间生成流畅的转场动画,提升最终呈现的视觉冲击力。
- 交互式视频播放:生成的演示文稿自带交互式播放器,支持键盘控制、循环预览和智能转场。
- 完整 MP4 导出:可以将整套幻灯片合成为一个完整的演示视频,方便分享和展示。
- Claude Code Skill 集成:以 Skill 形式嵌入 Claude Code,支持通过自然语言对话直接生成 PPT。
技术架构
NanoBanana PPT Skills 的核心设计是将 PPT 生成的三个环节分别交由不同的 AI 模型处理:
| 处理环节 | 使用的技术 | 核心作用 |
|---|---|---|
| 内容理解层 | Claude 大模型 + 文档解析 | 智能解析输入文档,自动提取层级关系和核心要点 |
| 图像生成层 | Google Nano Banana Pro(Gemini 3 Pro Image) | 生成幻灯片内容图片,支持 2K/4K 分辨率 |
| 动画渲染层 | 可灵 AI + FFmpeg | 生成页面转场视频,进行视频合成 |
这套架构的精妙之处在于各取所长:Claude 擅长理解和组织内容,Nano Banana Pro 擅长生成高质量图片,可灵 AI 和 FFmpeg 则负责视频处理。三者协同工作,实现了从文本到精美演示文稿的自动化流程。
三、实战案例:30 页 PPT,一句话搞定
在深入技术细节之前,我们先来看一个真实的实战案例,直观感受这套工具的强大。
一位名为 OpenAlgo 项目的开发者需要制作一个面向交易员和开发者的 Pitch Deck,展示他们开源算法交易平台的能力。按照常规做法,这需要找设计师、调模板、手动排版------至少半天的工作量。但他选择了 AI 方案:
"Create a 30-slide PPT on Introduction to OpenAlgo. This is for traders and developers. Use the nano-banana plugin to generate process diagrams and infographics. Make it a modern startup pitch deck."("创建一个 30 页的 OpenAlgo 介绍 PPT,面向交易员和开发者。使用 nano-banana 插件生成流程图和信息图。制作成现代创业公司的 Pitch Deck 风格。")
就这一句话。Claude 没有追问 OpenAlgo 是做什么的,也没有索要功能列表或营销文案------它直接阅读了源代码。几秒钟之内,它就开始探索代码仓库中的路由、API 端点、经纪商集成和文档文件,自动理解了 OpenAlgo 连接了 24+ 家印度经纪商、支持 12 个交易平台等核心特性。
最终的产出是一套完整的 30 页 Pitch Deck,包含精美的架构图和信息图表。其中一个典型的架构图 Prompt 是这样的:
"Create a professional architecture diagram titled 'ONE API, 24+ BROKERS' in bold white text at the top. TOP SECTION --- 'YOUR TRADING PLATFORM': Three boxes in a row labeled: 'TradingView', 'Amibroker', 'Python/Excel' ... MIDDLE SECTION --- 'OPENALGO API LAYER': A large glowing rectangular box ... BOTTOM SECTION --- 'BROKER CONNECTIONS': From the API box, 24 small lines fan out ..."
这个案例揭示了一个关键优势:Nano Banana Pro 支持超过 2000 词的长提示,这让 Claude 能够输出极其精细的视觉指令,而 Nano Banana Pro 则忠实执行,生成与品牌调性高度一致的图表。
四、详细安装与配置指南
接下来进入实操环节。下面将详细介绍如何从零开始安装和配置 NanoBanana PPT Skills。
第一步:前置准备
安装前,确保你的系统满足以下要求:
| 依赖项 | 作用 | 获取方式 |
|---|---|---|
| Python 3.8+ | 运行核心脚本 | python.org |
| FFmpeg | 视频合成和转码 | brew install ffmpeg(macOS)/ apt install ffmpeg(Linux) |
| Git | 克隆代码仓库 | git-scm.com |
| Claude Code | AI 交互环境 | claude.ai/code |
第二步:获取 API 密钥
你需要两个 API 密钥:
- Google Gemini API Key (必需):用于调用 Nano Banana Pro 图像生成模型
- 前往 Google AI Studio 免费获取
- 可灵 AI 密钥 (可选):用于生成视频转场效果
- 包括 KLING_ACCESS_KEY 和 KLING_SECRET_KEY
第三步:安装 NanoBanana PPT Skills
方法一:通过 Claude Code 提示安装(推荐)
在 Claude Code 中直接输入以下提示:
plain
> "Install the NanoBanana-PPT-Skills skill from op7418/NanoBanana-PPT-Skills"
Claude Code 会自动完成克隆仓库、安装依赖、配置环境的全流程。
方法二:手动安装
如果你希望完全手动控制,可以按照以下步骤操作:
bash
# 1. 克隆仓库
git clone https://github.com/op7418/NanoBanana-PPT-Skills
cd NanoBanana-PPT-Skills
# 2. 创建并激活 Python 虚拟环境
python -m venv venv
source venv/bin/activate # macOS/Linux
# 或 .\venv\Scripts\activate # Windows
# 3. 安装 Python 依赖
pip install google-genai pillow python-dotenv
第四步:配置环境变量
在项目根目录创建 .env 文件,填入你的 API 密钥:
plain
GEMINI_API_KEY=your_gemini_api_key_here
KLING_ACCESS_KEY=your_kling_access_key_here # 可选
KLING_SECRET_KEY=your_kling_secret_key_here # 可选
第五步:验证安装
在 Claude Code 中运行一个简单的测试:
plain
> "使用 nano-banana skill 生成一页测试 PPT,主题是'人工智能的未来',风格简洁现代。"
如果成功生成一页图片并返回,说明安装配置完成。
五、使用教程:从输入到精美 PPT 的全流程
核心工作流程
NanoBanana PPT Skills 的完整工作流程可以概括为四个阶段:
plain
输入内容 → Claude 内容解析 → Nano Banana Pro 图像生成 → FFmpeg 视频合成
具体来说:
- 内容输入:你可以输入一句话主题、一篇文章、一份 Markdown 大纲,甚至直接指向一个代码仓库或文档文件夹。工具会自动分析并提取核心要点。
- 结构规划:Claude 根据内容自动规划幻灯片结构------几页、每页讲什么、用什么视觉风格。你可以选择多种视觉风格,包括渐变毛玻璃卡片风(Apple Keynote 极简风,适合科技产品演示和商务汇报)和矢量插画风(温暖扁平化设计,适合教育培训和创意提案)。
- 图像生成:对每一页幻灯片,Claude 生成一个详细到极致的 Prompt(可达 2000+ 词),交由 Nano Banana Pro 渲染成 2K/4K 高清图片。
- 视频合成:所有页面图片生成完毕后,FFmpeg 将图片和可灵 AI 生成的转场视频合成为一个完整的 MP4 演示视频。
实战操作示例
下面以制作一个"产品发布会 PPT"为例,演示完整操作:
步骤 1:准备内容文件
在项目目录中创建一个 content.txt 文件,填入你想要展示的内容。你可以采用 Markdown 格式来组织结构:
markdown
# 产品发布会:SmartHome Hub 2026
## 第一页:封面
- 标题:SmartHome Hub 2026 发布会
- 副标题:重新定义智能家居中枢
- 日期:2026年1月
## 第二页:市场痛点
- 智能家居设备孤岛问题
- 用户需要在多个 App 间切换
- 现有方案兼容性差
## 第三页:我们的解决方案
- 统一中枢:一个 App 控制所有设备
- 支持 50+ 主流品牌
- AI 学习用户习惯,自动场景联动
## 第四页:核心技术优势
- 自研跨协议通信芯片
- 毫秒级响应速度
- 军工级安全加密
## 第五页:市场数据
- 智能家居市场规模:2026年预计 1500 亿
- 目标份额:第一年 5%
- 已获得 3000 万天使轮融资
## 第六页:团队介绍
- CEO:前 Google 智能家居团队技术负责人
- CTO:连续创业者,上一家公司被 Amazon 收购
- 团队规模:50 人,其中 70% 为研发人员
## 第七页:结束页
- 谢谢观看
- 联系方式:info@smarthomehub.com
- 官网:www.smarthomehub.com
步骤 2:在 Claude Code 中执行生成命令
输入以下指令:
plain
> "读取 content.txt 文件,使用 nano-banana skill 生成一个产品发布会的 PPT,
共 7 页,风格选择渐变毛玻璃卡片风。生成图片后,再合成为一个完整的 MP4 演示视频。"
步骤 3:检查并调整输出
工具会自动:
- 解析 content.txt 中的内容结构
- 为每一页生成详细的图像生成 Prompt
- 调用 Nano Banana Pro 逐页生成高清图片
- 使用 FFmpeg 合成最终的演示视频
生成过程中,你可以在终端看到每页的生成进度。如果有不满意的地方,直接告诉 Claude 进行调整:
plain
> "第三页的配色太暗了,换成更明亮的蓝色调。"
> "封面的字体再大一些,加上产品 Logo。"
步骤 4:导出和使用
生成完成后,你会在项目目录中找到:
slides/文件夹:每页的高清 PNG 图片output.mp4:完整的演示视频interactive.html:支持键盘控制的交互式播放网页
六、进阶技巧:发挥最大潜力
1. Prompt 设计技巧
由于 Nano Banana Pro 支持超过 2000 词的长提示,你的 Prompt 越详细,生成效果越好。建议在描述中包含以下要素:
- 主题和标题:明确每页的核心信息
- 布局描述:元素的具体位置(顶部、中部、底部)
- 配色方案:主色调、背景色、强调色
- 字体要求:字号、粗细、对齐方式
- 图表类型:柱状图、流程图、架构图等
- 整体风格:现代科技感、极简商务风、温暖插画风等
2. 视觉风格选择
NanoBanana PPT Skills 支持多种视觉风格,可根据场景选择:
| 风格类型 | 设计理念 | 适用场景 |
|---|---|---|
| 渐变毛玻璃卡片 | Apple Keynote 极简风 | 科技产品演示、商务汇报 |
| 矢量插画风 | 温暖扁平化设计 | 教育培训、创意提案 |
你可以在指令中直接指定,如"使用渐变毛玻璃卡片风格"。
3. 利用 Claude Code 的代码理解能力
如果你正在开发一个软件项目,可以直接让 Claude 读取你的代码仓库来生成 PPT------就像 OpenAlgo 案例中演示的那样。Claude 能够理解代码中的模块结构、API 设计和技术栈,从而生成高度贴合产品实际的演示文稿。
4. 批量生成与迭代
如果需要制作系列 PPT(比如培训课程的多节课件),可以准备一个包含多个主题的 Markdown 文件,让 Claude 批量生成,大大提高效率。
七、常见问题与解决方案
Q1:安装时提示找不到 FFmpeg?
解决:确保 FFmpeg 已正确安装并添加到系统 PATH 中。
- macOS:
brew install ffmpeg - Ubuntu/Debian:
sudo apt install ffmpeg - Windows:从 ffmpeg.org 下载并手动添加到环境变量。
Q2:API 调用失败或超时?
解决:
- 检查网络连接是否正常(需要访问 Google AI 服务)
- 确认
.env文件中的 API Key 正确无误 - 查看 Google AI Studio 中的 API 配额是否已用完
Q3:生成的图片分辨率不够高?
解决:在生成指令中明确指定分辨率要求,例如:"生成 4K 分辨率的图片"。Nano Banana Pro 支持从 512px 到 4K 的多分辨率输出。
Q4:不想生成视频,只想要图片版 PPT?
解决:在指令中说明"只生成图片,不需要视频合成"。工具会跳过 FFmpeg 合成步骤,只输出高清图片。
Q5:生成的 PPT 风格不符合预期?
解决:在指令中更详细地描述视觉风格,或者使用参考图片。Nano Banana Pro 支持上传参考图片来引导风格生成。
八、总结与展望
NanoBanana PPT Skills 代表的不仅仅是一个 PPT 生成工具,它展示了 AI Agent 时代一种全新的工作范式:用自然语言描述需求,AI 智能体自动拆解任务、调用专业工具、完成端到端的交付。
这套工具让 PPT 制作从"体力活"变成了"对话式创作"。你不需要懂设计,只需要描述你的想法;你不需要反复修改,只需说"第三页改成案例分析";你不需要担心配色,AI 会保持整体风格统一。
根据项目维护者的更新记录,NanoBanana PPT Skills 的 2.0.0 版本已经引入了重大视频功能改进,未来还将持续迭代优化。结合 Claude Code 不断扩展的 Skills 生态,我们有理由相信:AI 原生的工作流正在从"能用"走向"好用",并最终走向"优雅"。
如果你也想告别熬夜调 PPT 的日子,现在就去 GitHub 上安装试试吧。
项目地址:https://github.com/op7418/NanoBanana-PPT-Skills
延伸阅读:
__