今天开发者说采访的对象是郭志才,他曾在外企和京东工作,后投身大模型相关的行业,一干就是八年。
今年他在Github发布的 AI 生成 PPT 的项目,仅上线半年就斩获 1.4k star。在探索Ai生成内容的尝试中,他勇敢迈出了一步,在这个过程中他也遇到了许多志同道合的朋友,今天他希望能在这里和更多人相遇。

从"组装电脑大神"到NLP工程师
本科阶段,我就读于天津工业大学光电专业,并非计算机科班出身,但因为我一直对计算机领域抱有浓厚兴趣,我主动选修了相关课程。当时我还热衷于硬件研究,那时候特别流行组装电脑,我也喜欢捣鼓这些,当时我们全系的人几乎都知道我会组装电脑和做系统,不少同学组装电脑时都会来寻求我的帮助。
毕业后,我进入一家外企担任运维开发工程师,主要负责服务器管理、监控维护及服务开发等工作。之后,我又跳槽到京东,转型从事大数据运维相关岗位;后续又加入一家初创企业,聚焦 NLP 小模型的研发工作。如今,我的工作方向已拓展至大模型、多模态技术及 Agent 相关领域。
目前,我任职于一家医疗科技公司,主要做的是医疗+ AI 的赛道。今年 11 月,国家卫健委发布相关政策,明确提出要实现基层诊疗智能 AI 全覆盖,并从八个维度阐述了医疗与 AI 的融合路径,其中多项内容已落地或处于持续完善阶段。我们当前的核心发力点是医疗 + 科研方向,我对该领域的未来前景也十分看好。

做了一套Ai生成PPT项目,斩获1.4K star
做这个 AI 生成 PPT 项目的初衷其实特别简单:我想做出一款好用的产品。
做这个项目之前,我调研了不少大厂的产品和开源项目,那时候PPT 系统的市场需求还挺大的,所以我就着手开发了第一套系统。不过第一版系统还很不成熟,存在不少问题。
这套系统的开发界面是另一个开发者做的,他的前端思路是用 XML 渲染,先让大模型生成 XML,再由 XML 生成 PPT------ 这个思路本身不错,但有两个明显的缺点:一是模板样式特别少,二是预览的 PPT 和最终导出的版本不一致,毕竟 HTML 格式渲染成 PPT 很难做到 1:1 还原。当时我做了很多升级和维护来解决这些问题,用了谷歌的 A2A 和 ASK 搭建多 agent 系统,现在这套 PPT 系统也还是基于这个思路来实现的。
最初的核心逻辑是:用户输入一个主题,系统先检索大量资料生成大纲,再把大纲拆分成不同部分,自动生成多个并行的 agent,每个 agent 负责研究其中一部分,研究完汇总结果,最后再把汇总的内容写成 PPT。说白了就是总分总的结构:先有整体大纲,再分模块研究,最后汇总成完整的 PPT。

这个思路本身没问题,但因为第一版系统的那些缺点,后来我就想着开发第二套系统 ------ 模板式 PPT。这一版解决了模板少、导出渲染不一致的问题,还把 agent 做了简化。为了提升速度简化 agent ,我又专门写了一套强化学习的训练代码。

现在的训练模式已经变成了 agent 训练,核心是动态调用工具、动态决定下一步动作,用的是 react 模式,也就是 "思考 - 观察 - 行动"。最开始我试过用 art 框架做,但翻墙太麻烦,就换成了国内的 model scope 框架,效果还不错,不过目前强化学习这块还得继续升级。
强化学习最大的难点是奖励机制不好判断。举个例子,生成一份大纲,得先定义清楚什么样的大纲才算 "好",模型才能跟着学。奖励可以自定义,比如格式奖励 ------ 生成的大纲符合 Markdown 格式就给奖励;或者内容奖励 ------ 内容质量高、有深度也给奖励。不同奖励的判断方式不一样,格式奖励能靠规则判断,内容奖励得用更优质的大模型打分,但奖励机制一旦不稳定,模型训练的效果也会受影响。
还有个难点是,现在的训练都是单个 agent 针对单一任务练,比如先训练生成大纲的 agent,再训练写内容的 agent,要么同时练两个,要么一个模型练两遍。但在同一个模型里先练完大纲 agent,再练内容 agent,很容易导致模型退化;可做 PPT 本身是个完整流程,必须先写大纲再写内容。这里面至少涉及到四类奖励:大纲格式、大纲内容、PPT 格式、PPT 内容,奖励维度越多,模型训练的稳定性就越差。

不过现在也有不少新框架出来了,比如国外微软的 agent-lightning、国内阿里的 agent scope,主流方向都是研发多任务训练的框架,专门针对 agent 训练设计的,比我之前手动拼接的框架好用多了。到现在我已经开发了两版 PPT 系统、两版训练框架,第三版训练框架也在升级迭代中。我觉得到今年年底,这类训练框架应该能成熟起来,到时候多 agent 的智能水平也能再上一个台阶。
这是一个"众筹项目"
在这个项目从上线到后续升级维护的过程中,我认识了特别多朋友,他们不光给我的项目提了许多实用的意见和建议,还有不少人直接贡献代码,跟着我一起改进这个系统。比如 PPT 里怎么插图片、发图片,还有一键启动这些功能,都是热心网友和我一起做出来的。

还有很多网友给我提了不少新的功能改进想法。比如有人说,能不能支持根据上传的文件生成 PPT------ 有的用户不想联网搜最新资料,就想拿自己的一篇文章来做 PPT,那只要把文章传上来,系统就能照着文章生成对应的 PPT。另外还有两个还没实现的功能:一个是自动化相关的,还有一个是用 AI 生成模板。比如有些公司有自己专属的 PPT 模板,用户把模板传上来,AI 能先把模板转换成在线 PPT 格式,之后再照着这个模板的风格生成 PPT。这些都是网友给我的特别宝贵的建议,我也希望在不远的将来能把这些功能都实现。

开发第一套系统的时候,上线才一周就涨了八百多个关注,那会儿我突然就觉得,自己做的项目真的被很多人用上了,说实话还挺震撼的。我也发现,能解决大家日常高频遇到的问题、或者是常用的工具类产品,更容易受到关注 ------ 这也成了我之后做开发的一个方向。
现在的技术更新特别快,差不多每三个月就至少有一次比较大的迭代。我觉得下一步的迭代重点还是会放在 agentic training 这块。因为每个人关注的点、使用的场景都不一样,用这种 agent 的方式去训练,能适配更多不同的情况,按这个思路做训练,整体的逻辑也会更顺畅。
AI正在模糊内容的产权边界
AI生成内容的版权争议,确实特别难解决。你说现在的 AI 有版权吗?就拿谷歌、OPEN AI 来说,他们训练模型的时候,会从全网搜集各种数据,这些数据的来源是否有版权,AI是无法精确判断的,这些模型训练完生成内容提供给全世界,但它的数据源 90% 以上都存在版权问题。
再说咱们国内的模型,为啥一个新模型出来后,其他模型很快也变聪明了?因为这里面有个 "蒸馏" 的过程。比如现在最新的模型是 Gemini3,它一出来,很快就会有模型达到接近它的水平,但基本不会超越它。因为咱们现在开发模型,大多是做模型蒸馏 ------ 把 Gemini3 当成 "老师",让它教 "学生" 模型,获取对应的数据集、答案和解题思路,再用这些去训练自己的模型。靠这种方式训练,想超越 "老师" 很难,真要做到的话,得在强化学习这块下更大的功夫。要是没有 "老师" 指导,给模型设定奖励的时候,谁来判断奖励是否合理?模型蒸馏就好比有能力比你强的人给你指明方向。现在的开源数据,大多能给出明确答案,不管是数学验证还是代码验证,都能得出清晰的奖励标准。但像 PPT 这种东西,什么样的质量才算 "好",有时候根本说不清楚,这时候就得靠更智能的模型来判断;咱们获取数据集也是一样,得向更聪明的模型去要数据。

所以我觉得版权问题肯定是存在的,但 AI 正把这个问题变得越来越模糊。有人问过我:用 AI 生成图片、代码,或者写教案、写歌、写网络小说,这些东西的版权就归AI所有了吗?要是真这样,那世界上估计没几家独立的公司了,所有公司都成了 AI 的 "小弟",其他人都没版权了 ------ 这显然不可能。所以我觉得,AI 其实是让版权的边界变模糊了,也让全人类的知识在慢慢走向共享。
外企和国内私企的工作异同
外企和私企的职场氛围差异挺明显的。我之前在国内私企和外企都待过,外企那种"规规矩矩讲平等"的感觉特别突出。当时我们团队有日本同事、爱尔兰同事、美国同事,我们的年龄差别很大,当时我是算最年轻的,其次是日本同事,大概30多岁,而美国同事大概50岁,爱尔兰同事大概是50多岁,胡子都白了。我那时候刚毕业没几年,是队里最年轻的,但从没因为资历浅被冷落过------不管是开需求会还是查运维故障,大家都围着屏幕平等讨论,领导也不会摆架子,这种氛围对程序员来说真的很舒服。
有一次我们去号称印度硅谷的班加罗尔出差了一星期,我们从出发前就开始"做功课",网上总说"印度水质可能不行",结果到了之后,我们几个人紧张了好几天,倒也没人闹肚子,算是虚惊一场。饮食上的冲击更直接。我们在当地吃咖喱,端上来的时候香气特别浓,但看到旁边印度人直接用手抓着吃,还是受到了一点文化冲击。
比饮食更特别的是当地的风土人情。工作间隙我们去参观了几处佛像古迹,进佛殿必须光脚,那时候是夏天,光脚出入的时候还有点烫脚。还有路上的牛,真的是"横行无忌",后来才知道在印度牛是神圣的象征,连堵车的时候,司机都会停下来等牛慢悠悠走过。
让我印象更深的是印度的交通。我们住的地方离办公点也就五到十公里,搁国内开十分钟就到了,在班加罗尔却要堵一个小时。我们挤在一辆小巴士里,红绿灯仿佛只是个摆设。这几天的出差让我感受到了不一样的风土人情和工作氛围,印象还是很深的。

我此前任职的外企主营企业邮箱系统,核心服务对象是中国移动、中国电信等通信运营商。当时企业邮箱市场规模持续萎缩,行业内企业频繁合并,业务范围不断收缩 ------ 在缺乏创新突破的情况下,企业发展明显走下坡路。出于职业发展的考量,我最终选择了离职。
之后我跳槽至京东,当时电商大促活动热度很高。每逢双十一、618 这类大促节点,系统升级工作需提前一周暂停,所有精力都投入到保障系统稳定上。大促期间,用户习惯在凌晨 12 点集中抢购,服务器承载着巨大压力;双十一当天公司也会通过数据大屏实时展示每分钟的销售额,整个大促过程极具挑战。大促当天我们基本需要连续工作 24 小时,公司会安排丰盛的餐食,到后半夜三四点后,无需全员值守,大多数人可以前往公司安排的酒店休息。高强度的工作持续到后半夜,脑子都转不动了,现在回想起那段经历就像 "渡劫" 一样。
现在就好多了,平台把深夜整点促销的玩法取消了,用户的购物欲也没那么强了,不用像以前那么卷了。
未来的职业规划
我平时工作里会攒下不少 idea,很多还没来得及落地。我还是想往 AI 创新这块儿深耕,也确实有一些自己的想法。之前在 AIGC 相关的大会上认识过一个人,他们当时在做的事特别有意思 ------ 用 AI 帮人类创新、拓宽思维。AI 不只能做那些有规律的事,还能尝试无规律的创新,他们当时是靠知识图谱来做创新挖掘,现在我们也在做类似的事,不过是聚焦在医学方向的创新。怎么挖掘创新点、落地创新想法,我觉得这块儿大有可为。
核心问题其实是:AI 该怎么帮人创新,还能验证这个创新确实符合大的创新方向?这事没那么容易,既要大量思考,还得做很多数据统计。创新得既结合实际,又能天马行空 ------ 首先得读透海量文献,才能判断某个主题或方向是不是未来的发展趋势,进而找到可能的创新点;提出创新想法后,还得想办法验证它的可行性:要去全网搜集相关知识,通过大数据统计确认这个方向没人做过,而且从实际层面来说确实能落地,这才能算找到一个好的创新点。
创新对人类来说本就很难,对 AI 而言也一样,但这块儿的价值特别大。你看美国那边做药物、蛋白质、基因相关的研究,还有神经网络模型里注意力结构更高效这类课题,都在靠 AI 做创新突破。我们日常工作里其实也有很多创新机会,比如把不同领域的点结合起来 ------ 就拿做 PPT 来说,哪个切入点能让人眼前一亮?哪两个看似不相关的领域交叉融合能出惊喜?这些都得结合创新理论、具体数据,再加上天马行空的思路,才能打磨出好的创新点。
正因为这块儿的价值和潜力都很大,我未来也打算往 AI 助力创新这个方向深入研究。
给AI新手的建议
我觉得现在要敢于迈出这一步。敢想敢做,读万卷书不如行万里路,你要真正去做起来。现在 AI 门槛越来越低了,以前做NLP的时候,你要学很多数学公式,你要看它到底是怎么去算的,计算原理是什么,现在基本上统一了,以前是各种各样的模型,每个领域还不通用,现在用一个生成模型就全部解决了,训练算法也比较统一,因为好的算法可能就那几种,对年轻人来说,不用学那么多老旧的东西了,只需要你去尝试最新的算法和技术,很快就能掌握皮毛。
现在借助 AI 去实现编程的话也很快,因为我们现在写代码,80%也是靠 AI 去写。所以对于现在想入门的年轻人来说,你只要大胆去做就行,有什么不懂的去问 AI 。以前需要自己探索,或者是上网查很多资料,现在AI可以解决 90 %以上的问题,现在对想入行的年轻人来说,学习 AI 的难度大大地降低了,这也算是我们的一个时代红利吧。
=故事征集=
《开发者说》是程序员客栈推出的一个访谈栏目,邀请了一些国内外有趣的程序员来分享他们的经验、观点与成长故事,我们尝试建立一个程序员交流与学习的平台。欢迎大家推荐朋友或自己来参加我们的节目,分享与对话是一件利他又利己的事。