用龙虾模型把跨境电商的业务SOP转成OpenClaw的Skill

周末我在深圳办了两场AI跨境电商活动,加起来600人。

聊到OpenClaw 怎么落地的时候,问我最多的问题是:饼干哥哥,你用的是哪些 Skill,能不能分享一些好用的?

我说,没有。

那些公开的 Skill 都不好用。不是因为写得差,是因为它们根本就不是为你的业务写的。

先看我的龙虾在干什么

昨晚,我把一张公司内部的 pSEO 业务流程图发给了我的一只龙虾。

5分钟后,它交付了这些东西:

完整梳理了业务 SOP,拆成了三个 Skill,写完了 9 个文件,自测了 3 个评测用例全部通过,安全审计清单 5 项全绿,安装到了正式目录,可以直接运行。

我全程说了不到 10 句话。

这不是演示,这是在飞书里真实发生的。步骤截图在后面。

但如果1个月前你问我,OpenClaw 好不好用------我的答案和大多数人一样。装了几十个 Skill,跑起来的没几个,更别说真正干活。

这中间发生了什么?

装了 300 个 Skill,但龙虾还是干不了活

ClawHub 上现在有超过 2800 个 Skill。

很多人第一件事就是批量装,装完发现龙虾还是在那里发呆,或者干活干到一半就出错了。

问题出在哪?

通用 Skill 解决的是通用问题。但跨境电商的业务流程,每家公司都不一样。你用飞书多维表格管 SKU,他用 Shopify 后台;你的竞品监控跑 Amazon,他的跑速卖通;你的 KOL 开发发的是 Gmail,他的走 WhatsApp Business。

把别人的 Skill 装进来,充其量是个参考,不是解决方案。

真正能跑起来的 Skill,一定是深度绑定你自己业务流程的。

好,问题来了:怎么把自己的业务,变成龙虾能干的 Skill?

前天我在深圳办了一场 OpenClaw + 跨境电商的黑客松闭门会。有一组同学专门讨论这个问题。他们现场给出了一个公式:

好的 Skill = 定场景 + 立目标 + 理规则 + 给示例 + 划边界

翻译成人话:什么时候用、用完手里有什么、每步怎么做、好案例和坑在哪、边界在哪。

图自@Ena

思路是对的,但嘉宾说了一句让我有点意外的话:开发 Skill 一定要用最顶的海外模型,Claude Opus、GPT-5,不然质量出不来。

我当时没有当场反驳。

专门为龙虾训练的模型,才是正确答案

昨天陆续刷到智谱发布了新模型 GLM-5-Turbo。

定位只有六个字:全球首个龙虾模型。

不是通用模型加了个龙虾适配,而是从训练阶段就针对龙虾工作流专项优化。它重点增强了四个方向:工具调用稳定性、复杂指令拆解、长任务持续执行不中断、高吞吐长链路。

你可能会问,开发 Skill 需要这些能力吗?

需要,而且非常需要。

开发一个完整的 Skill,模型要在一次会话里做这些事:理解业务意图、追问业务细节、梳理 SOP 逻辑、规划 Skill 架构、生成多个文件、自测评测用例、跑安全审计、执行安装命令。

这个过程跨越十几轮对话,涉及大量工具调用,中途不能失忆,不能崩。

这正好是 GLM-5-Turbo 专门练过的场景。

而且它有 200K 的上下文窗口,开发过程中所有的业务背景、SOP 细节、文件内容都在视野里,不会到后面把前面的需求忘掉。

在 ZClawBench(智谱自研的真实龙虾任务评测基准)上,GLM-5-Turbo 在 OpenClaw 场景里整体领先多家主流模型。内测阶段以匿名身份接入 AutoClaw 澳龙,90% 的用户盲测认为它优于其他国产模型。

扣子 Coze、美团、字节 TRAE 的测评团队用的词是:指令遵循力压群雄、长任务稳健不掉链子、高吞吐执行极快不失速。

这些评价,翻译成 Skill 开发场景的意思是:它能跟着你把一个 Skill 从头跑到尾,不会中途跑飞。

我现在OpenClaw就是用的它。

好,回到正题。

Skill 开发这件事,分三个层次。

青铜:一个好提示词,让龙虾帮你写 Skill

最快的路径:把业务 SOP 整理清楚,给 GLM-5-Turbo 一套精心设计的提示词,让它直接帮你生成 Skill 文件。

这套提示词要做四件事:

第一,给模型设定角色和开发规范。告诉它 SKILL.md 的结构要求、文件组织方式、执行者分配逻辑(哪些操作用脚本、哪些用 SubAgent、哪些用主 Agent)。

第二,强制先做边界审查再动手。加一条指令:在你开始生成任何文件之前,先检查 SOP 是否有逻辑漏洞,有任何不清楚的地方立刻停下来反问我。

第三,要求先输出架构蓝图等确认后再写文件。先告诉我目录结构是什么、每一步分配给谁执行、为什么这么分,等我回复「架构确认」再动手。

第四,所有高风险操作加 BLOCKING 标签。写入数据库、发送消息、修改状态,必须强制人工确认才能继续。

我们团队的小伙伴在黑客松期间就用这套方式开发了飞书竞价监控 Skill。

模型收到提示词后,没有直接动手,而是先审查 SOP,发现了三个问题:字段类型与实际表格不一致、有个未提及的字段 Current_Price 用途不明、命名空间前缀写错了。

全部反问确认之后,才输出架构蓝图,等「架构确认」指令,再逐个生成文件。

整个过程 10 分钟,就交付了完整的 Skill。

GLM-5-Turbo 在这个环节的价值是稳。复杂的业务逻辑拆解它不会漏步骤,工具调用链条长它不会中途报错,多轮确认之后它还记得最开始的需求边界。

用的过程你就会发现,它说的东西真的好长好多。。啥都考虑进去了。。

OK,青铜层次能用,但有个隐藏问题:每次开发新 Skill,都要重新整理 SOP、重新写提示词。整理质量不稳定,提示词写得不一样,最后 Skill 质量也不稳定。

接下来升级到「白银」玩法

白银:开发一个专门用来开发 Skill 的 Skill

把开发 Skill 这件事本身,封装成一个可复用的 Skill。

这个 Skill 的核心是五维提问框架。它不会直接帮你写 Skill,而是先系统地问你五个维度的问题,直到业务逻辑完全清晰,再进入开发阶段。

五个维度对应上面的公式:

WHEN 定场景:这个 Skill 什么时候用,用户会说什么话触发它,什么情况下明确不用

WHAT 立目标:跑完这个 Skill 手里有什么,合格的输出是什么样,什么叫失败

HOW 理规则:人工完成这件事的完整步骤,每步的判断逻辑,哪步最容易出错

REFERENCE 给示例:有没有好案例参考,踩过哪些坑,有没有现成模板

LIMITS 划边界:哪些操作必须人工确认,异常情况怎么处理,什么绝对不能做

五个维度问完,Skill 会整理出 SOP 确认稿让你确认,梳理得非常细:

再输出 Skill 规划方案------这个场景要拆几个 Skill、每个 Skill 职责是什么、建议开发顺序。复杂任务就是需要这样多skills协作。

SOP 梳理的质量被标准化了。不管是你自己来,还是团队里其他人来,走完这个流程,输出的 Skill 质量会稳定在一个水准之上。

GLM-5-Turbo 的长任务持续执行能力在这个层次体现得最明显。五维问答通常需要 3-4 轮对话,中间还要跑搜索、整理 SOP、规划架构,整个链条很长。它能从头到尾保持状态,不会到第三轮的时候把第一轮确认好的边界忘掉。

但白银层次还没解决一个问题:Skill 用了一段时间之后需要迭代,怎么管?

随着 Skill 越来越多,哪些在用、哪些出了问题、哪些需要迭代,这些信息如果没人管,Skill 库会越来越乱。

黄金:一个 Agent,管理 Skill 的完整生命周期

这才是昨晚,也就是文章开头故事的底层逻辑。

不是开发一个 Skill,而是建一个专门负责 Skill 生命周期的 Agent。

这个 Agent 的工作流完整跑下来是这样的:

你发一张业务流程图,说「我想把这个场景做成 Skill」。Agent 先去搜索行业最佳实践,然后用五维提问框架问你业务细节,整理出 SOP 确认稿让你确认,规划 Skill 方案,你决定先开发哪个,它进入开发模式,生成完整的 Skill 文件结构,自测,安全审计,安装到正式目录,记入长期记忆。

每天早上自动跑 Skill 健康巡检,每周一分析哪些 Skill 使用频率高、哪些出过错误,每周五跑安全复查。

安全这块有硬规定:capabilities 字段只申请实际用到的权限、没有硬编码密钥、所有写操作前有人工确认节点、异常情况有明确的处理逻辑。审计没过不安装,哪怕你催。

核心配置四个文件:

SOUL.md 刻入 Agent 的身份和底线------使命是业务翻译官,五维问答没跑完不规划 Skill,SOP 确认稿没得到用户确认不开始写文件,安全审计没过不安装。

AGENTS.md 定义七个开发阶段的操作规范,从需求接收、五维提问、SOP 确认、Skill 规划、文件开发、自测,到安全审计和安装,每个阶段的触发条件和交付标准都写死。

TOOLS.md 定义可用工具和每个工具的使用边界,包括搜索调研、文件操作、代码执行、记忆系统、Agent 间通信。

HEARTBEAT.md 定义三个定时任务------每日巡检、每周使用分析、每周安全复查。

我把 NGS 的 pSEO 内容引擎架构图发给了这个 Agent。

它跑了九个问题的五维问答,整理出 SOP 确认稿,我确认之后它规划出「1 主 + 2 子」的三个 Skill 方案,然后顺序开发,9 个文件全部生成,自测三个评测用例全通过,安全审计五项全绿,安装完成,更新 MEMORY.md 归档。

这就是开头那一幕的完整版本。

直接让它跑一个关键词的写文章测试:

也是能走完完整流程,并且给我写好的文章结果。

GLM-5-Turbo 在黄金层次的价值最难被替代:从你说第一句话到三个 Skill 全部安装,中间跨越几十轮工具调用和多次 SubAgent 并行,整个链条一个小时,它没有中途失忆,没有跑飞,每个关键节点该停下来确认的都停了,该自己跑的都跑完了。

这正是它被定位为龙虾模型的原因------不是最聪明,是最能跑完一个完整任务。

🌅

福利!黄金层次的Agent 完整配置文件(SOUL.md / AGENTS.md / TOOLS.md / HEARTBEAT.md)&提示词

关注公众号「饼干哥哥 AGI」

回复关键词「龙虾skill」获取。

这三个层次,不是选一个,是逐步升级

青铜的提示词是白银 Skill 的前身,白银的 Skill 被包含在黄金 Agent 里。

没有 SOP 梳理能力,Agent 再强也问不出有价值的问题。

你今天从青铜开始也完全可以。整理一个业务 SOP,用提示词让 GLM-5-Turbo 帮你开发一个 Skill,跑通一遍。然后再想要不要升级到白银和黄金。

最后

OpenClaw 好不好用,跟你装了多少 Skill 没关系,跟用什么模型也没有直接关系。

它取决于你有没有把业务 SOP 梳理清楚,然后把这个 SOP 变成 Skill。

我开头说,没有什么现成的 Skill 可以推荐。

这不是谦虚,是真相。

好用的 Skill 都是自己调教出来的。但「调教」这件事本身也可以被 SOP 化,可以被工程化,可以变成一条可以复制的流水线。

这才是 OpenClaw 在跨境电商真正落地的方式。

相关推荐
Code_LT1 小时前
【AIGC】Claude Code 模型配置详解
log4j·aigc
饼干哥哥2 小时前
OpenClaw企业落地的5个进阶配置,价值千亿的市场机会
aigc
92year2 小时前
GTC 2026 + GPT-5.4 实测:推理成本砍到1/10,AI直接操控电脑|周报
aigc
与虾牵手2 小时前
OpenClaw 接入大模型 API 完整教程:2026 Skills 开发从零到跑通
aigc·ai编程
不可能的是2 小时前
我是怎么搞清楚 Claude Code 每天用了多少 token
aigc·ai编程·claude
GISer_Jing2 小时前
AI Agent交互模式深度解析:浏览器书签&插件进行AI对话
前端·人工智能·aigc·交互
柯儿的天空3 小时前
【OpenClaw 全面解析:从零到精通】第007篇:流量枢纽——OpenClaw Gateway 网关深度解析
人工智能·gpt·ai作画·gateway·aigc·ai编程·ai写作
小程故事多_803 小时前
重构 RAG 质量标准,一套可落地、可量化的全维度评估框架
人工智能·重构·aigc·ai编程·rag
Sirius Wu3 小时前
基于OpenClaw环境的Agent强化学习(RFT+GRPO)训练机制与自动化实践报告
人工智能·深度学习·机器学习·语言模型·aigc