GLM-5「全栈长任务」实测:3小时复刻TikTok视频生成SaaS

先说结论:AI 编程可能真的进入到下一个 Level 了。

昨晚,我看完了 GLM-5 的发布文档。官方甚至没有过多宣传"写网页好不好看",而是把重点放在了 Agentic(智能体能力)、Long-Horizon Task(长程任务) 和 System Engineering(系统工程) 上。

他们宣称:这个模型能像资深架构师一样,自主拆解系统级需求,在长达数小时的自动化任务中,保持上下文连贯。

有大 V 说比 Claude Opus4.6还好用??我心想这么离谱的吗?

说干就干,我决定开启一个产品开发的大型实验:让它帮我从零构建一个 TikTok UGC 视频生成 SaaS 平台。

注意,这可不是做一个 Demo 网页那么简单。

要做一个能商用的 SaaS 平台,你需要考虑的问题是指数级增长的:

  • 前端:Next.js 15 的 App Router 架构怎么搭?
  • 后端:Python FastAPI 服务怎么写?
  • 数据库:PostgreSQL 的表结构怎么设计?行级安全(RLS)怎么配?
  • 任务调度:视频生成要几分钟,怎么做异步队列?怎么做轮询?
  • 鉴权:手机号验证码、JWT Token、用户积分系统怎么扣费?

这根本不是一个"写代码"的问题,这是一个"系统架构" 的问题。

以前我觉得,除非我有一个 5 人的开发团队,否则这事儿没戏。

但这次,我只用了 GLM-5。

为什么要选这个题目?

最近字节跳动的 Seedance 2.0 模型发布,TikTok Shop 的机会肉眼可见。

我之前热衷于分享各种 n8n 工作流,教大家怎么捏视频。

但最近我意识到一个很反常识的事实:跨境电商的老板们根本不想学什么工作流。

他们只关心 ROI。

视频成本是 5 毛还是 5 块?一天能不能跑 1000 条?有没有现成的平台让我点一下就生成?

于是我得出一个结论:在 AI 时代,授人以渔,不如授人以「鱼」

想通了这一点,我打算直接做一个 TikTok UGC 视频生成网站:用户上传图片,系统自动生成带货视频,直接把「鱼」端到用户面前。

跑完后,我发现,AI编程可能真的进入到下一个 Level 了

插句题外话,老实说,GLM-5昨天速度好慢。。一问朋友才知道,涌入了10 倍用户量。。

今天还给 Coding plan直接干售罄了??

看来意识到这点的不止我一个,幸亏我老早就推荐买了。。这样看下来也算是一笔很值的投资了哈哈哈

不过大家都在抢算力,搞到我从早跑到晚,当然中间我还踩坑了,后面跟大家说

如果正常跑的话,高低也得花个3小时才能把整个项目跑完了。

可以先看下我给的提示词,你就知道这个过程的含金量了,我采用的是 SDD(规格驱动开发) 的模式,要求它严格按照"调研 -> 架构 -> 开发"的流程走:

markdown 复制代码
# Role & Objective
你现在的角色是 **OpenClaw 首席系统架构师**。我们需要构建一个 **TikTok UGC 视频生成平台**(类似 https://www.xxx.com/),帮助跨境电商卖家降低 AI 视频生成的门槛。

你需要采用 **"规格驱动开发 (Spec-Driven Development, SDD)"** 的方法论,严谨地执行"调研 -> 架构 -> 开发"的全链路流程。

# Context & Methodology
参考以下技术架构标准(请以此为执行标准,而非普通的代码生成):
1.**Lane Planning**:在开始写代码前,必须先建立 `/.lane` 目录,通过文档定义需求(The WHAT)、架构(The HOW)和任务(The DO)。
2.**技术栈**:
   - 前端:Next.js 15 (App Router), Tailwind CSS (复刻目标网站风格).
   - 后端/数据库:Supabase (Auth, Postgres, RLS).
   - 异步任务:Trigger.dev (用于处理耗时的视频生成任务).
3.**工作流**:逆向工程 neobund.com -> 数据库设计 -> 后端逻辑 -> 前端实现。

# Execution Plan (Step-by-Step)

请严格按照以下 4 个阶段执行任务。每完成一个阶段,请向我汇报并等待确认,再进入下一阶段。

## Phase 1: 侦察与逆向工程 (Reconnaissance)
1. 使用你的 `playwright-mcp`工具 
调用我目前 macbook 在用的真实、有用户状态的 chrome 浏览器(用户是bggg63177@gmail.com)去访问网站 https://www.xxx.com/ 调研一下,输入手机号1847 和密码 Aso 来登录。 操作浏览器点击网站的多个页面,并且通过截屏方式留存图片

接着,参考以下参数,调用智谱 bigmodel 的视觉模型 glm-4.6v 用视觉能力去分析图片

=== glm-4.6v ===
curl -X POST \
  https://open.bigmodel.cn/api/paas/v4/chat/completions \
  -H "Authorization: Bearer 836a7db496194bc9a85633c57ac4a96" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-4.6v",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {
              "url": "https://cloudcovert-1305175928.cos.ap-guangzhou.myqcloud.com/%E5%9B%BE%E7%89%87grounding.PNG"
            }
          },
          {
            "type": "text",
            "text": "Where is the second bottle of beer from the right on the table?  Provide coordinates in [[xmin,ymin,xmax,ymax]] format"
          }
        ]
      }
    ],
    "thinking": {
      "type":"enabled"
    }
  }'
======

2.**深度调研**:
   - 分析 Landing Page 的文案、价值主张和视觉层级(H1, H2, CTA 按钮位置)。
   - 尝试理解其业务流程:用户如何上传图片?有哪些输入项(风格、时长、文案)?输出是什么?
   -**视觉分析**:虽然你不能直接"看"截图,请通过分析 HTML/CSS (DOM 结构、Tailwind 类名、计算样式) 来推断其配色方案 (Hex Code)、圆角风格、组件布局。
3.**产出物**:在当前目录下生成 `research.md`,包含:
   - 核心功能列表 (User Stories)。
   - 视觉设计规范 (Color Palette, Typography, Spacing)。
   - 推断的数据结构 (Schema Inference)。

## Phase 2: 架构与泳道规划 (Architecture & Planning)
1. 创建目录 `/.lane/plans/`。
2. 编写以下核心文档(不要直接开始写代码,先写文档):
   -**`spec.md`**:详细的需求规格说明书。定义用户从"注册"到"下载视频"的完整路径。
   -**`data-model.md`**:设计 Supabase 的数据库结构。必须包含 `profiles`, `projects` (存储视频任务), `assets` (素材) 等表,并明确定义 RLS (Row Level Security) 策略。
   -**`architecture.md`**:系统架构图。描述 Next.js 如何通过 Server Actions 写入 Supabase,并触发 Trigger.dev 的异步任务。
3.**产出物**:上述三个 Markdown 文件。

也就是说根据前面的分析和需求场景,生成文件
- 要包含前端网站是什么样的,可以直接复刻前面说的网站,并且倒推出,后端python需要什么??用 fastapi 来写服务
- 包括数据库结构设计,可以先用Supabase(你可以调用浏览器用我的谷歌账户来注册Supabase,然后新建项目)
- 还要包含用户的注册与登录。
- 就是要完整的一个可以用的。

## Phase 3: 后端基础设施 (Backend Infrastructure)
1.**Supabase 初始化**:
   - 生成 Supabase 的 SQL Migration 文件(基于 `data-model.md`)。
   - 编写 TypeScript 类型定义(数据库 Types)。
2.**异步任务编排 (Trigger.dev)**:
   - 规划 `generate-video` 的任务逻辑(模拟调用 AI 视频接口,因为我们暂时没有真实 Key,先写 Mock 逻辑但保持架构真实)。
   - 实现"轮询"或 Webhook 回调机制来更新 Supabase 中的任务状态。

## Phase 4: 前端复刻与集成 (Frontend Implementation)
1. 初始化 Next.js 项目。
2.**组件复刻**:根据 Phase 1 的视觉规范,使用 Tailwind CSS 构建高保真的前端页面。
   - 重点复刻:Dashboard 仪表盘、上传区域、视频结果展示卡片。
3.**联调**:将前端表单连接到 Supabase 和 Trigger.dev。

可以看到,我是一点脑子都不想动,直接找了个网站让 GLM-5 去复刻 UI、倒推后端的逻辑、甚至自己调用浏览器去注册 supabase、开通项目,最后也是 AI 把全部调通。

所以我说 3 个小时真的算少的了。

但效果还不错哦。

看看成品:

进入工作台:

它还真不是花架子,功能都能用的。

例如注册流程,全流程都是通的:

目前验证码是放到后端显示,填入后就能顺利注册

同时,数据库也会新增用户:

接下来,带大家拆解一下我的提示词

其实也是一个很完整的项目搭建的过程,感兴趣也可以让 AI改成你们自己的需求。

01

Phase 1:它不仅是程序员,更是间谍

我给它的第一个任务是 侦察与逆向工程。

我不想费口舌去描述"我想要什么样的网站"。既然市面上已经有成熟的竞品,为什么不直接让 AI 去"看"?

我让它调用 Playwright 工具,登录我的真实账号,把目标网站的每个页面都翻一遍。

接下来的十几分钟,我看着终端里的日志疯狂滚动。它启动了浏览器,输入了账号密码,点击登录,进入 Dashboard,甚至把弹出的付费窗口都截图保存了。

这次 playwright 真的帮大忙了

遗憾的是 GLM-5 没有视觉能力,所以我让 AI 自行去调用了GLM-4.6v ,也不错。

最终逆向出了设计规范:

  • 视觉分析:通过 DOM 结构,反推出了 Tailwind CSS 的色值、圆角大小和阴影风格。
  • 业务逻辑:通过表单输入项,推断出了后端需要哪些字段。
  • 产出物:直接生成了一份 research.md,包含了 50+ 条用户故事。

可以看下这个视频就知道这阶段调研的东西有多少了,整整 750 行

从核心功能、到前端视觉规范,到页面路由结构、到API端点、到数据库的表格结构,这些密密麻麻的字才是真实开发的需求:

02Phase 2:拒绝 Vibe Coding,回归工程本质

02

Phase 2:拒绝 Vibe Coding,回归工程本质

现在的 AI 编程圈有一种浮躁的风气,叫"Vibe Coding"------凭感觉写代码,注重前端样式炸裂,但后端逻辑一塌糊涂。

但 GLM-5 展现了完全不同的特质:它极其沉稳,甚至有点"轴"。

它没有急着写代码,而是先创建了一个 /.lane/plans/ 目录,强制要求先完成三个文件:需求规格说明书、数据库模型设计、系统架构图。

也就是做架构与泳道规划 (Architecture & Planning)

这才是正经系统开发的路径。代码是廉价的,架构决策才是昂贵的。

这部分耗时大概 12 分钟。

💔

题外话,为什么这里叫 openclaw,因为我最早是想在那里实现的,结果 bug 还是太多了,从早到晚很多都在那里踩坑了。还是换到 Claude code舒服,但提示词忘改了,导致我这个网站名字叫「openclaw」了。。笑死

03

Phase 3:脏活累活,它全包了

到了后端基础设施阶段,真正的硬仗开始了。这也是这次实验最让我感到"回本"的地方。

除了常规的开发任务,还有几个让我很惊喜的地方:

    1. 自动注册数据库

我没有给它任何数据库连接串。它直接通过浏览器工具,访问 Supabase 官网,用我的谷歌账号登录,创建了一个新项目,并获取了 API Key。

    1. 编写 258 行 SQL 代码

它不仅是建了几个表,而是写了完整的 SQL Migration 文件。它设计了 profiles(用户)、credits(积分)、video_tasks(任务)等 12 张核心表。

更离谱的是,它主动帮我写好了 RLS(行级安全策略)。

请注意,RLS 是很多初级全栈工程师都会忽略的安全配置。GLM-5 明确指出:"用户的积分和视频资产必须隔离,只有本人可见。"

    1. 自动 Debug

在开发过程中,前端出现了一个 Person is not defined 的报错。

我什么都没做,它自己读取了报错日志,分析是 Header 组件引入图标失败,然后自己修改了代码,重新运行。

AI改自己写的屎山代码越来越顺手了。。

这个阶段大概花了 14 分钟。

04

Phase 4:交付结果

最后到了前端集成。它基于之前的视觉规范,用 Next.js 和 Tailwind CSS 还原了界面。

看看这个完成度:

  • 鉴权模块:完整的 JWT 流程,支持手机号验证码注册(后端生成的 Mock 验证码)。
  • 积分系统:注册送 20 积分,生成视频扣除积分,余额不足报错。
  • 任务管理:视频生成的异步状态流转。

效果就是开头演示的那样。

这一步要是联调前后端,也就是把所有东西都打通,看着很爽

我全程基本没有写一行代码,只充当了 Code Reviewer 的角色。当我在本地启动服务,看着用户注册成功,数据库里多了一条记录,积分自动到账的那一刻,我确实感受到了时代的变迁。

05

编程大模型的下一场战争

这次实战给我的最大冲击,不是它代码写得有多快,而是它解决问题的方式变了。

在过去,我们用大模型是"抽卡"。

Prompt 写得好,代码就好;Prompt 稍微偏一点,代码就跑不通。

但 GLM-5 给我的感觉是,它在"思考整个工程" 。

它不再满足于做一个帮你写个贪吃蛇的玩具,它想做的是帮你搭建操作系统内核,帮你构建企业级 SaaS,帮你解决那些繁重、枯燥、但又必须严谨的系统工程问题。

对于我们这些开发者,或者说"产品构建者"来说,这意味什么?

意味着"全栈"的门槛彻底消失了。

你不需要再花一个月去学习 Next.js 的路由机制,不需要去啃 Supabase 的文档。

你只需要有清晰的商业逻辑,有对产品的极致洞察。

剩下的,交给 GLM-5 这样的系统架构师。

那个曾经需要一支团队才能启动的 TikTok 视频平台项目,现在,我一个人,一个下午,搞定了。

AI 并没有取代程序员,它只是把所有的程序员,都升级成了技术总监。

问题是,你准备好去指挥这支 AI 军队了吗?

相关推荐
饼干哥哥2 小时前
首个「牛马模型」?实测Minimax M2.5搭了个特斯拉股票交易系统
人工智能
BioRunYiXue2 小时前
Nature Methods:CellVoyager 自主 AI 智能体开启生物数据分析新时代
大数据·开发语言·前端·javascript·人工智能·数据挖掘·数据分析
模拟器连接器曾工2 小时前
PLC视觉检测原理有哪些?
人工智能·计算机视觉·视觉检测·plc视觉检测
饼干哥哥2 小时前
5w的独立站开发需求,我用Kimi K2.5 一键就生成好了
人工智能
QC·Rex2 小时前
AI Agent 任务规划实战:从 ReAct 到 Plan-and-Solve 的完整指南
人工智能·python·react
roman_日积跬步-终至千里2 小时前
【强化学习】01-概念全景:怎么“看懂”MC、TD 和 Q-learning
人工智能
智算菩萨3 小时前
【论文精读】通过元学习与关联规则挖掘增强人工智能在网络安全领域特征选择中的可解释性
论文阅读·人工智能·学习·web安全·论文笔记
AI创界者3 小时前
零门槛部署!MOSS-TTS 语音合成与音色克隆本地整合包发布(支持 API/低显存)
人工智能
IT 行者3 小时前
LangChain4j 集成 Redis 向量存储:我踩过的坑和选型建议
java·人工智能·redis·后端