女程序媛多肉的 AI 小绿书,短短 3 天 220 粉

微信公众号近 1~2 年,主推贴图类型作品,并且对这类内容有比较明显的流量倾斜。再叠加这两年 AI 生图的成熟,Nano Banana Pro 和 GPT-Image-2 先后出世,既然图片生产不再是卡点,那很多人会很自然地想到一个项目:用 OpenClaw、Codex、Claude Code 这类 Agent 工具,把公众号贴图自动化做起来。

理论上,这听起来像一个很好且成本不高的生意。AI 负责生图,Agent 负责写文案,公众号负责推荐流。人只要选图、点发布,甚至再往后一点,连选图都可以交给 Agent。

但实际上真的有这么简单吗?我自己维护的公众号《女程序媛多肉》,看起来只是发了几张漂亮照片,短短 3 天吸引了 220 个左右的粉丝。但真正做下来,我却花了大量的功夫。AI 小绿书表面是生图项目,底层其实是一个很典型的 Agent 工程项目。 这个过程里,我们踩了不少坑。下面我做一下总结,希望对你在 AI 工程化的思路上有所帮助。

1. 人物一致性

做 AI 贴图的第一反应,通常是追求画面质量和惊艳的感觉,比如更漂亮的人、更干净的背景、更精致的穿搭、更像摄影大片的光线。模型也很愿意往这个方向走,因为这些东西在训练分布里太常见了。

但对《女程序媛多肉》来说,我们真正要做的不是"生成一个好看的女生",而是让固定人物【多肉】持续出现在固定生活半径里。这个区别非常关键。一开始最容易出现的问题,就是每张图单独看都不错,但放在一起不像同一个人。脸型轻微漂移,发量变了,刘海变了,身材比例变了,妆感变了,甚至气质也从普通女程序员通勤照,慢慢跑成网红写真。

更麻烦的是,这种问题不是一句 prompt 能解决的。你写"same girl""same face""保持角色一致",模型有时会把一致性理解成角色设定稿,于是画面开始变得更干净、更棚拍、更像 AI 人像。当然,也不是说你生成一张固定的角色信息卡就可以了,理论上它和 prompt 面临同样的问题。

我们后来对这个问题的判断是:角色一致性不能来自"设定稿强约束",而应该来自"同一生活序列"。也就是说,不能把主模特锚点当成画风来源。它只能提供身份边界,告诉模型不要漂成别人。真正的出图锚点,应该逐渐迁移到同一人物、同一天、同一场景、同一手机成像分布下的连续生活照。

所以我们在流程里做了几个约束:

  • 固定人物身份:22 岁北京女程序员,多肉。
  • 固定生活半径:出租屋门口、公司电梯、园区、工位附近、楼下取快递。
  • 固定内容语境:通勤穿搭、程序员日常、出门前的小选择。
  • 同组连续性:同一套图里发型、刘海、包、袜子、鞋子、场景、光线和拍摄语境必须一致。
  • 禁止人物镜子图:因为镜中人物和真实人物一旦不一致,一眼假会非常明显。

这套约束很像开发工作中的工程配置。但它解决的是账号最核心的问题:用户关注的不是一张图,而是一个可以持续出现的人。

2. 衣服经常不是穿上去,而是贴上去

贴图账号如果要做穿搭,第二个大坑是服装。很多 AI 图第一眼看还行,细看会发现衣服像贴在身体表面。裙摆没有重量,袜口没有压痕,鞋底没有接触,口袋没有厚度,衣服褶皱也不是来自肩膀、腰线、坐姿或包带,而是模型随手画出来的纹理。

这类问题在普通审美里可能只是瑕疵,但在穿搭内容里是硬伤。因为用户看到的是"这件衣服穿在身上是什么效果"。如果衣服只是像一层贴图,穿搭展示就不成立。

我们后来把穿搭任务单独抽成了一个契约:只要用户给了衣服、裤子、鞋、包或说"穿这个",系统就必须把一级目标锁死为:固定模特多肉,穿用户给定服装,在已批准场景里生成真实日常照片。

这里面有几个优先级非常硬:第一,必须是多肉本人。第二,衣服必须穿在她身上。第三,第一张图必须清楚展示服装。第四,一组图必须像同一天同一套衣服的连续照片,而不是不同批次拼出来的好看图。

这个约束解决了一个很常见的漂移:用户明明要穿搭图,Agent 却很容易跑去做账号策划、场景图、海报、泛日常内容,或者生成一张"氛围很好但衣服看不清"的图。

我们现在会在生成前强制写 generation-packet.md。里面不只写"生成一张真实照片",而是要把主体服装身份、摄影事件、构图透视、光源曝光、投影接触、头发皮肤表情、服装材质受力、环境生活细节、文件质感瑕疵和负向熔断都写进去。

可能你觉得这个太重了?但做久了发现,AI 生图最怕的就是目标太软。你给它一个软目标,它就会用训练分布里最安全、最漂亮的方式把你糊弄过去。

还有,要先定义失败条件,再让模型生成。比如:

  • 鞋底漂浮,失败。
  • 裙摆没有接触暗部,失败。
  • 衣服像贴图,失败。
  • 包带和手臂没有遮挡关系,失败。
  • 给定服装看不清,失败。
  • 只生成环境不生成人,失败。

这比写一堆"高质量、真实、自然"有效得多。

3. 不懂摄影、绘图和光影,AI 只会更快地犯错

这也是我做这个项目之后一个很强烈的感受:想用好 AI,首先你必须对 AI 正在做的那个领域足够熟。否则,你无法判断 AI 的产物是否达标。一旦这样的作品发出去,结果可想而知。

不要以为 AI 生图的门槛是 prompt,其实不是。prompt 只是表达方式,真正起作用的是你有没有能力判断一张图为什么真,为什么假,哪里不符合摄影逻辑,哪里不符合人体和服装逻辑。

比如"光影真实"这四个字,模型听不懂。你要能拆成更具体的问题:

  • 主光从哪里来?
  • 鞋底接触阴影落在哪个面上?
  • 裙摆、袜口、包带和手臂有没有遮挡暗部?
  • 背景里的桌脚、鞋架、门把手、瓶罐有没有同一光源下的影子?
  • 头发是不是一整片假发壳,还是有发束、遮挡和局部暗部?
  • 皮肤是不是塑料磨皮,还是保留了毛孔、黑眼圈、鼻翼微红和环境光影响?
  • 衣服褶皱是不是来自肩袖、腰线、坐姿、包带、重力和接触,还是随机噪声?

不懂这些,Agent 就只能写"真实、自然、高质量、手机随手拍"。听起来对,但生成出来大概率还是错。

所以,我们后来把摄影、绘图、光影、服装材质这些专业知识都放进了输入包和门禁里。它们不只是审查标准,也要进入真正提交给生成器的 prompt。

这点很重要。如果专业知识只停留在"生成后挑图",那 AI 仍然是在乱抽。只有把专业知识前置到生成包里,模型才有机会朝正确方向走。

这也是我现在对 AI 的一个基本判断:AI 会降低执行成本,但不会取消领域知识的价值。恰恰相反,它会放大领域知识的差距。

一个懂摄影、懂绘图、懂光影、懂内容平台的人,用 AI 是在加速生产。一个完全不懂这些东西的人,用 AI 只是更快地产出大量看起来完整、实际上经不起检查的内容。

这件事放到代码里也一样。你不懂工程,AI 写出代码你也不知道哪里危险。你不懂内容,AI 生成图文你也不知道哪里假。你不懂平台,AI 写出标题你也不知道为什么没有二跳信号。

AI Native 不是把人变成按钮操作员。真正的 AI Native,是把人的专业判断拆成机器能执行、能检查、能复用的流程。

4. 朱雀不是玄学,真实相机链路才是关键

做公众号图片,绕不开 AI 味。我们内部有一个硬门禁:最终展示照和生活照必须过腾讯朱雀,检测状态为绿色,也就是 AI probability 小于 40%。

这个门禁一加上,很多看起来不错的图直接被淘汰。

这里有个很有意思的现象:不是"穿搭题材"容易红,也不是"人物一致"天然会红。我们做过真实照片对照,真实地铁照、真实碎花裙照片、用户 iPhone 原生照片都能过绿色,甚至隐私处理后仍然能保持很低的 AI 概率。

反过来,Codex 内置生成的干净人像,或者强角色设定稿风格的参考图,经常会直接红到 90% 以上。这给我们的启发很大。

朱雀真正敏感的,不只是画面里有没有美女,而是整张图有没有真实相机分布:曝光、噪声、压缩、白平衡、边缘畸变、局部过曝、背景杂物、自然遮挡、动作瞬间、文件链路。

所以我们的解决思路不是继续堆"realistic""8K""high quality"。这些词没有用,甚至经常有反效果。

我们后来把低 AI 味拆成几类可执行约束:

  • 人物为什么在这里?
  • 她正在做什么?
  • 谁在拍?
  • 手机在哪个高度?
  • 光从哪里来?
  • 哪些地方应该糊一点?
  • 哪些生活瑕疵应该保留?
  • 哪些背景细节说明这不是棚拍?

比如同样是"出门前穿搭照",我们不会只写"真实手机照"。而会写成:

同一位 22 岁的北京女程序员多肉,早上出门前站在出租屋门口,正在把水杯和门卡放进电脑 tote 包。朋友在胸口高度随手拍到她低头整理包的一瞬间。手机广角,有轻微边缘畸变,廉价顶灯混合窗边弱光,墙面局部过曝。穿搭轮廓是视觉焦点,脸部不需要完美正脸。保留轻微黑眼圈、发丝凌乱、针织毛边、鞋面使用痕迹、桌上线缆和门口鞋子不齐。

这段话看起来啰嗦,但它不是修辞。它是在描述这张照片是怎么被拍到的。

这也是我们后来对"低 AI 味"的技术理解:不要用结果形容词,要写摄影事件。

5. 测试驱动生产

如果你让一个 Agent 负责从生成到验收,它大概率会变成一个很会夸自己的员工。它会告诉你:图像真实,人物一致,服装展示清楚,适合发布。

但你一看图,手指错了,包带断了,脚没有落地,脸跟上一张不像,场景像样板间,评论入口也不存在。这不是某个模型的问题,而是职责设计的问题。

生产 Agent 天然倾向于让任务继续往前走。它刚生成完一批图,很容易用语言把结果解释成合格。所以我们后来把测试/质量门禁提高到了最高优先级。

它不是事后背书,而是全过程参与:

  • brief 阶段,判断目标是否清晰。
  • generation packet 阶段,判断输入包有没有填完整。
  • raw output 阶段,判断图片类型、人物、衣服、场景、一眼假。
  • group candidate 阶段,判断同组人物、发型、配饰、袜子、鞋子、光线是否连续。
  • final candidate 阶段,判断朱雀、隐私处理、运营风险和观众感受。

只要测试 Agent 判失败,生产 Agent 必须返工。用户喜欢、单张好看、朱雀绿色、隐私处理完成,都不能替代测试通过。

这个规则看起来有点反直觉。很多人会说,用户都觉得好看了,为什么还不能过?

原因很简单:我们要做的是长期账号资产,不是单张满意图。单张图好看但人物漂移,会伤害账号一致性。朱雀绿色但服装不清楚,会伤害穿搭目标。图片漂亮但标题没有点击理由,会伤害发布效果。

测试驱动生产的价值,就是阻止"主观满意"变成流程通行证。

6. 上下文会污染生成

做 Agent 项目的人应该都遇到过类似问题:一个上下文聊久了,模型会把历史里无关的东西带进当前任务。图像生成里这个问题更明显。

你前面讨论过海报,它可能把人物图生成成海报。你前面讨论过账号策划,它可能突然输出一张设定页。你前面看过失败图,它可能把失败图里的构图继续带进去。

所以我们把图像生成也当作一个不可靠外部系统来管理。核心原则是:生成提示必须从 08-generation-packet.md 派生,而不是从长会话临时拼接。

如果第一张输出已经跨领域偏航,比如人物图变成海报、UI、科普图、无人物图,立刻熔断。不能在同一上下文里继续"再试一次"。

熔断后要写 09-generation-debug.md

  • 本次输入包摘要是什么?
  • 实际输出是什么?
  • 偏离类型是什么?
  • 是否疑似上下文污染?
  • 下一步是新窗口隔离,还是补参考,还是明确授权 fallback?

这一步很重要。因为很多 AI 内容生产失败,不是模型完全不会做,而是上下文已经脏了。你继续改 prompt,只是在污染环境里做随机抽卡。

我们后来的做法是渐进披露:每个阶段只读必要信息。生成前只读本次 packet 和必要资产卡,门禁阶段只读候选图和检查表,发布包阶段只读通过门禁的作品和文案。历史 runs 可以参考,但不能变成当前上下文的垃圾场。

这套思路其实和软件工程里的隔离很像。不要让一个脏环境承担生产任务。

7. 贴图不是发图,是设计二跳信号

回到公众号贴图本身。如果只从技术角度看,我们很容易沉迷生成质量。但贴图内容能不能被推荐流继续放大,还要看另一层:用户有没有理由点开、停留、评论、收藏。

这也是我们后来专门加贴图增长门禁的原因。每篇贴图进入发布包前,都要回答几个问题:

  • 首图点击理由是什么?
  • 目标人群和垂直标签是什么?
  • 和近 7 天内容相比,信息增量在哪里?
  • 评论触发点是否安全且具体?
  • 有没有准备 3 条安全评论引子?
  • 发布后 15/60/180 分钟分别看什么数据?
  • 什么情况下使用流量券,什么情况下不救?

这里面最重要的,不是学标题党。恰恰相反,我们明确禁止搬运、洗稿、低俗擦边、诱导私信、无意义评论堆叠。

贴图增长真正要解决的是:这张图为什么值得被推荐系统继续测试。比如标题只是"粉色上衣 + 牛仔短裙",它就是服装陈列。但标题如果是"上班穿粉色会不会太学生气",用户就能进入一个具体场景:公司氛围、年龄感、通勤、同事眼光、自己的衣柜。

这个差别不是文案技巧,而是内容结构。我们的技术思考是:Agent 不应该只生成图片,还应该生成发布前的增长证据。

如果它说这篇适合发布,就必须给出首图点击理由、评论触发点、差异化和复盘指标。否则就是空判断。

8. 最终我们怎么组织这条生产线

现在这条线大概被拆成几个角色。这不是为了显得复杂,而是因为单 Agent 很难同时承担"创造、执行、审查、运营、复盘"这些互相冲突的职责。

一个 Agent 既负责生产,又负责验收,就会自证成功。一个 Agent 既负责图片真实感,又负责增长判断,就会把"图好看"误判成"适合发布"。一个 Agent 既负责长期账号资产,又负责短期流量,就很容易为了点击牺牲边界。

所以我们更愿意把它做成多 Agent 设计。

第一个是上下文 Agent。它负责当天背景:北京天气、季节、通勤实用性、流行穿搭线索、可用场景建议。它不直接生成最终图,只负责把当天语境补齐。

第二个是主生产 Agent。它负责写生产计划和 generation-packet.md。这里最重要的是把目标写死:固定模特,多肉,穿给定服装,在已批准场景里展示。不能漂移成海报、账号策划、泛日常或者无人物场景。

第三个是生成执行。生成只吃 packet,不吃长会话里的随口描述。输出第一张就偏航,立刻熔断,不盲目重试。

第四个是测试/质量门禁 Agent。它有最高否决权。它检查人物、服装、场景、光影、材质、手、鞋、包、朱雀、隐私和组图连续性。没有证据就没有通过。

第五个是贴图增长门禁。它检查这篇内容有没有推荐流二跳信号:首图、标题、评论点、差异化、关键词、复盘指标。

第六个是发布包。只有通过前面门禁的作品,才能进入最终包。微信公众号也只允许自动创建草稿,不替用户点最终发布。

这就是我理解的 Agent Native 工程化。不是把一个大 prompt 写得越来越长,也不是把所有任务都塞给一个超级 Agent,而是把人的专业流程拆成多个职责明确的 Agent:谁负责补上下文,谁负责生产,谁负责失败熔断,谁负责摄影和真实感门禁,谁负责贴图增长,谁负责最终发布边界。

每个 Agent 都有自己的输入、输出和否决条件。它们之间不是聊天接力,而是工程链路。

这套流程看起来很重。但它的目的不是把简单事情复杂化,而是把不稳定的 AI 能力放进稳定系统里。

以前我们靠感觉判断"这张能不能发"。现在我们至少能说清楚:它在哪个门禁失败,失败原因是什么,下次要改输入包、场景、prompt、图像策略还是增长结构。

这就是工程化的价值。

9. 所以这是不是躺着收钱?

如果只看《女程序媛多肉》3 天 220 粉,这件事确实有吸引力。但我不会把它包装成躺赚项目。

因为真正跑起来之后,你会发现里面每一步都需要判断:

  • 角色一致性怎么保?
  • 给定服装怎么确保穿在身上?
  • 图片怎么从 AI 人像分布拉回真实相机分布?
  • 朱雀红了,是换 prompt,还是换底图路线?
  • 第一张图偏成海报,是继续试,还是熔断?
  • 图好看但没有点击理由,到底发不发?
  • 数据在 1000 左右卡住,是首图弱、标题弱、评论弱,还是内容同质化?

这些问题没有一个能靠"再写一个神 prompt"彻底解决。它需要的是 Agent 工程化。

模型负责生成,Agent 负责执行流程,门禁负责否决,人工负责判断,数据负责纠偏。

我现在越来越觉得,这条线真正有价值的地方,不是它能不能立刻赚多少钱,而是它把 AI 内容生产里的很多问题都压缩到一个很小的场景里。

你会同时练到生图、提示词、角色一致性、真实感门禁、内容增长、发布边界、数据复盘和多 Agent 协作。这比单纯做几张漂亮图有意思得多。

我的判断

《女程序媛多肉》这 3 天 220 粉,只是一个开始。它说明公众号贴图这条线确实有窗口,也说明 AI 能显著降低内容生产成本。

但它同时也说明另一件事:AI 自动化不是让人少做事,而是把人的判断拆成流程。

角色一致性、服装上身、真实相机分布、朱雀门禁、上下文隔离、熔断机制、增长信号、发布复盘,这些东西拆清楚之后,AI 才不是在随机抽卡。

它才开始像生产。

所以如果你问我,这条 AI 小绿书路线值不值得做。

我的答案是:值得,但别把它当躺赚。

把它当一个小型 Agent 工程项目来做,你会更接近真实结果。

相关推荐
倔强的石头_9 小时前
Dify 接入蓝耘 MaaS:从 0 搭建一个企业知识库问答助手
aigc
jeffer_liu10 小时前
Spring AI 生产级实战:工具调用
java·人工智能·后端·spring·ai编程
程序员佳佳12 小时前
连续使用三个月向量 API 中转站,它真的适配向量落地场景吗?
人工智能·gpt·aigc·ai编程·agi
冬奇Lab13 小时前
每日一个开源项目(第121篇):tiktoken - OpenAI 出品的极速 BPE 分词器
人工智能·开源·openai
孟健14 小时前
白板不是关键,Miro靠什么年入6亿?
ai编程
后端小肥肠14 小时前
小红书篇篇 5 位数阅读!我自研了一套全栈爆款笔记 Skills
人工智能·aigc·agent
鲲鹏AI探索局14 小时前
飞书 CLI 实测:让 Codex 接入真实办公流程
人工智能·aigc·飞书cli
ServBay15 小时前
Qwen3.7-Max 发布,全能智能体基座
后端·aigc·ai编程
七牛开发者15 小时前
周三头条|从 Claude 案例看 Coding Agent 的计划层设计
ai编程