最近需要做答辩的 PPT 了,恰巧在网上看到一位博主分享的实操,于是实践了下并做了一些拓展。
本文记录下我的实践过程以及拓展思路
一.准备工作
环境: codex
原始数据: 论文.pdf + 学校 logo.png + 论文答辩 PPT(可选)

二.我的拓展
这篇博客 提供的 workflow和 prompt 整体思路、注意事项以及操作方式都比较清晰。如果只是想快速上手,直接参考原文即可。
不过在实际使用过程中,我发现这种方式仍然存在两个问题:
- 流程需要分步执行: 没有完全解放人力,需要分步执行,会导致频繁切换我们的注意力
- 最终生成的 PPT 不可编辑: 是纯图片的(当然这种形式也有自身的优势,作者原文也有提到),但我还是想生成一个可编辑的 PPT
针对上述问题,我主要做了两个拓展:
- /goal 的实践,充分发挥 agent 的能力,减少人为确认和注意力切换
- 结合 开源项目 PPT Master 制作可编辑的PPT
三./goal 的想法 or 原理
!note\]- 这一部分主要是我对 `/goal` 的一些理解。如果只关注具体操作流程,可以直接跳到下一节。 经常 vibe coding 的朋友肯定会有这么一个感觉,就是 AI 时代注意力变得越来越稀缺,当你打开多个终端窗口时,你的效率因为**频繁的上下文切换** 反而会变得更低,而且会让你变得很痛苦...而且总是会陷入**garbage in garbage out** 的死循环 因此,一个比较理想的工作方式是:**尽可能让 agent 在一次任务中连续完成更多步骤,而不是每完成一步就停下来等待人工确认。** ,或者说可以让我减少**上下文切换的次数** ,对于一个完整的工程,上下文切换是无法避免的(不可能一次性,完美的完成任务,除非任务极其简单),也就是说**这部分成本是无法避免的** ,此时我们可以使用**摊销(amortize)** ,就像进程切换时,上下文切换的成本是固定的,此时通过提高 time slice 就可以让这些固定成本看起来没那么多 按照这个思路, 提高 AI 应用效率的办法是**尽可能让每次工作时间足够长** , codex 推出的/goal 就是这方面的一个实践,我比较认可的最佳实践是党哥提到的**goal driven**  其实这套机制的核心在于**是否能提出足够清晰的目标和足够准确的验证标准(test case)**,否则就像无头苍蝇,永远需要人干预.
四.实践
下面是/goal 在制作答辩 PPT 上的实践
- 目标: 根据博客的 workflow 和本地文件夹(毕业论文,学院 logo)制作出我的毕业论文答辩 PPT
- 期望: 当 codex 开始工作后,不会停下来需要我确认
由于 codex 不会自动推荐主动的子代理,但是他有plan 模式 ,我们可以先让他识别出哪些地方是不明确的,是要我提前说明的,在对话框中打开 plan 模式并输入下面的 prompt
text
我想参考下面的这篇博客制作我的毕业论文答辩ppt, "https://blog.csdn.net/2201_75420345/article/details/160890409"
,你根据这个博客先列出一个制作的计划,并在可能需要我确认地方让我选择确认(比如视觉方案),确保整个执行过程不会停止
在这个过程中他会识别出哪些地方需要我确认,并向我提问确认

我确认完这些问题后,Codex 生成了一份较完整的制作计划。这个计划中不仅包含 PPT 的结构安排,还包含实施步骤和测试验收标准。
!note\]- 生成的计划 ## 毕业论文答辩 PPT 制作计划 ### 摘要 参考博客流程,采用"先提炼结构、再确定视觉、最后生成整页图片式 PPT"的方式制作答辩稿。最终目标是生成一份适合 **6-8 分钟本科答辩、约 16 页、蓝白工程风、整页图片铺满且带演讲者备注** 的 PPT。 ### 已确认方案 * **视觉风格**:蓝白工程风,突出 WebGIS、系统架构、数据流、地图可视化与工程实现。 * **页数与时长**:控制在 16 页左右,适配 6-8 分钟答辩。 * **生成方式**:每页先生成完整页面图片,再铺满 PPT;除演讲者备注外,页面中不放可编辑元素。 * **素材来源** :优先使用本地已有论文与图片素材,包括 `毕业答辩` 中的系统截图、架构图、专题图和 logo。 * **执行不中断策略**:如遇单页生成效果不佳、图片缺失或内容不确定,默认先使用论文现有文字和已有图表生成可用版本,再记录为待微调项,不中断整体 PPT 生成。 ### PPT 结构规划 1. 封面:题目、姓名、学院、指导教师,背景使用 xx弱化视觉。 2. 目录:研究背景、系统设计、数据体系、功能实现、测试部署、总结展望。 3. 研究背景:(不方便透露) 4. 研究问题:(不方便透露) 5. 研究目标与内容:(不方便透露) 6. 技术路线:(不方便透露) 7. 研究区与数据:(不方便透露) 8. 系统总体架构:(不方便透露) 9. 数据库与地图服务设计:(不方便透露) 10. 核心功能一:(不方便透露) 11. 核心功能二:(不方便透露) 12. 核心功能三:(不方便透露) 13. 系统运行效果:综合使用系统截图展示主要界面。 14. 测试、优化与部署:功能测试、性能测试、Docker Compose 部署。 15. 特色与创新点:(不方便透露) 16. 总结与展望:主要成果、不足、后续扩展方向与致谢。 ### 实施步骤 * 建立独立输出目录,例如 `毕业设计/答辩PPT/`,内部放置结构稿、视觉参考图、页面图片、PPTX 输出文件和备注稿。 * 读取论文 PDF/LaTeX 内容,生成 `答辩PPT结构.md`,每页包含标题、核心观点、建议图示和备注要点。 * 基于蓝白工程风生成 3-5 张视觉参考页:封面、目录、章节页、系统架构页、成果展示页。 * 按确认后的结构生成 16 张完整页面图片,每页统一比例 16:9,控制页面文字量,重点使用图、流程、截图和关键词。 * 使用 PPT 生成工具把每张图片铺满对应幻灯片,并为每页写入演讲者备注。 * 生成最终文件:`毕业设计/答辩PPT/` * 完成后检查:页数、错别字、logo 位置、图片清晰度、备注是否适合 6-8 分钟讲述。 ### 测试与验收 * 打开 PPT 检查所有页面是否铺满,无裁切、无变形、无缺图。 * 检查每页备注是否存在,并按 6-8 分钟答辩节奏压缩为口语化表达。 * 核对关键事实:(不方便透露) * 对系统截图页重点检查图例、地图、统计图是否清晰可辨。 * 若某页内容错误,只重生成对应页面图片并替换,不重做整套 PPT。 ### 默认假设 * 答辩对象为本科毕业论文答辩。 * 学校/学院视觉不强制套用官方模板,优先保证正式、清晰、工程感。 * 页面不可编辑是有意选择,后续修改通过重生成单页图片完成。 * 不新增遥测、联网素材或外部数据,除非你明确要求。
我们会发现,在计划的最后,明确写了测试与验收 ,这部分就是 goal 的 testcase,点击执行之后,就会生成对应的 PPT


从最终效果来看,这种方式比一步步手动提示更高效,也更适合处理 "目标清楚但步骤较多" 的任务。
五.结合 PPT Master 制作可编辑的 PPT
上述操作生成的 PPT 属于AI 图像生成派 ,生成的 PPT 是不可编辑的,每一页是纯图片的形式,博客作者也提到这样做的好处

但缺点也很明显,就是一旦有细小的改动,就需要让 AI 重新生成一次,改动成本太大,阅读了这个公众号文章后,了解到 PPT Master 就是专门用于制作可编辑 PPT 的,于是结合此项目和 codex,重构了一幅可编辑的答辩 PPT(这篇文章关于AI制作PPT总结的很全,推荐阅读!)


Prompt:
text
很好!现在这个ppt已经很不错了,接下来使用这个开源项目将这个ppt转换为可编辑的"https://github.com/hugohe3/ppt-master",新增一个ppt文件
总结一下,我认为比较合理的工作流是:
- 参考博客, 先用 Codex 快速生成一版视觉效果较好的图片式 PPT;
- 确认整体结构、风格和内容没有大问题;
- 再结合 PPT Master 转换或重构为可编辑 PPT;
- 最后人工进行细节校对和答辩前微调。
这种方式兼顾了 AI 生成的效率和正式答辩场景下的可维护性。
参考文献 :
- CSDN 博客:使用 Codex 制作论文答辩 PPT 的实操流程
https://blog.csdn.net/2201_75420345/article/details/160890409 - PPT Master GitHub 项目
https://github.com/hugohe3/ppt-master - 关于 AI 制作 PPT 的总结文章
https://mp.weixin.qq.com/s/RqX-pzhjxQkZktvpdE64XA