用龙虾模型把跨境电商的业务SOP转成OpenClaw的Skill

周末我在深圳办了两场AI跨境电商活动，加起来600人。

聊到OpenClaw 怎么落地的时候，问我最多的问题是：饼干哥哥，你用的是哪些 Skill，能不能分享一些好用的？

我说，没有。

那些公开的 Skill 都不好用。不是因为写得差，是因为它们根本就不是为你的业务写的。

先看我的龙虾在干什么

昨晚，我把一张公司内部的 pSEO 业务流程图发给了我的一只龙虾。

5分钟后，它交付了这些东西：

完整梳理了业务 SOP，拆成了三个 Skill，写完了 9 个文件，自测了 3 个评测用例全部通过，安全审计清单 5 项全绿，安装到了正式目录，可以直接运行。

我全程说了不到 10 句话。

这不是演示，这是在飞书里真实发生的。步骤截图在后面。

但如果1个月前你问我，OpenClaw 好不好用------我的答案和大多数人一样。装了几十个 Skill，跑起来的没几个，更别说真正干活。

这中间发生了什么？

装了 300 个 Skill，但龙虾还是干不了活

ClawHub 上现在有超过 2800 个 Skill。

很多人第一件事就是批量装，装完发现龙虾还是在那里发呆，或者干活干到一半就出错了。

问题出在哪？

通用 Skill 解决的是通用问题。但跨境电商的业务流程，每家公司都不一样。你用飞书多维表格管 SKU，他用 Shopify 后台；你的竞品监控跑 Amazon，他的跑速卖通；你的 KOL 开发发的是 Gmail，他的走 WhatsApp Business。

把别人的 Skill 装进来，充其量是个参考，不是解决方案。

真正能跑起来的 Skill，一定是深度绑定你自己业务流程的。

好，问题来了：怎么把自己的业务，变成龙虾能干的 Skill？

前天我在深圳办了一场 OpenClaw + 跨境电商的黑客松闭门会。有一组同学专门讨论这个问题。他们现场给出了一个公式：

好的 Skill = 定场景 + 立目标 + 理规则 + 给示例 + 划边界

翻译成人话：什么时候用、用完手里有什么、每步怎么做、好案例和坑在哪、边界在哪。

图自@Ena

思路是对的，但嘉宾说了一句让我有点意外的话：开发 Skill 一定要用最顶的海外模型，Claude Opus、GPT-5，不然质量出不来。

我当时没有当场反驳。

专门为龙虾训练的模型，才是正确答案

昨天陆续刷到智谱发布了新模型 GLM-5-Turbo。

定位只有六个字：全球首个龙虾模型。

不是通用模型加了个龙虾适配，而是从训练阶段就针对龙虾工作流专项优化。它重点增强了四个方向：工具调用稳定性、复杂指令拆解、长任务持续执行不中断、高吞吐长链路。

你可能会问，开发 Skill 需要这些能力吗？

需要，而且非常需要。

开发一个完整的 Skill，模型要在一次会话里做这些事：理解业务意图、追问业务细节、梳理 SOP 逻辑、规划 Skill 架构、生成多个文件、自测评测用例、跑安全审计、执行安装命令。

这个过程跨越十几轮对话，涉及大量工具调用，中途不能失忆，不能崩。

这正好是 GLM-5-Turbo 专门练过的场景。

而且它有 200K 的上下文窗口，开发过程中所有的业务背景、SOP 细节、文件内容都在视野里，不会到后面把前面的需求忘掉。

在 ZClawBench（智谱自研的真实龙虾任务评测基准）上，GLM-5-Turbo 在 OpenClaw 场景里整体领先多家主流模型。内测阶段以匿名身份接入 AutoClaw 澳龙，90% 的用户盲测认为它优于其他国产模型。

扣子 Coze、美团、字节 TRAE 的测评团队用的词是：指令遵循力压群雄、长任务稳健不掉链子、高吞吐执行极快不失速。

这些评价，翻译成 Skill 开发场景的意思是：它能跟着你把一个 Skill 从头跑到尾，不会中途跑飞。

我现在OpenClaw就是用的它。

好，回到正题。

Skill 开发这件事，分三个层次。

青铜：一个好提示词，让龙虾帮你写 Skill

最快的路径：把业务 SOP 整理清楚，给 GLM-5-Turbo 一套精心设计的提示词，让它直接帮你生成 Skill 文件。

这套提示词要做四件事：

第一，给模型设定角色和开发规范。告诉它 SKILL.md 的结构要求、文件组织方式、执行者分配逻辑（哪些操作用脚本、哪些用 SubAgent、哪些用主 Agent）。

第二，强制先做边界审查再动手。加一条指令：在你开始生成任何文件之前，先检查 SOP 是否有逻辑漏洞，有任何不清楚的地方立刻停下来反问我。

第三，要求先输出架构蓝图等确认后再写文件。先告诉我目录结构是什么、每一步分配给谁执行、为什么这么分，等我回复「架构确认」再动手。

第四，所有高风险操作加 BLOCKING 标签。写入数据库、发送消息、修改状态，必须强制人工确认才能继续。

我们团队的小伙伴在黑客松期间就用这套方式开发了飞书竞价监控 Skill。

模型收到提示词后，没有直接动手，而是先审查 SOP，发现了三个问题：字段类型与实际表格不一致、有个未提及的字段 Current_Price 用途不明、命名空间前缀写错了。

全部反问确认之后，才输出架构蓝图，等「架构确认」指令，再逐个生成文件。

整个过程 10 分钟，就交付了完整的 Skill。

GLM-5-Turbo 在这个环节的价值是稳。复杂的业务逻辑拆解它不会漏步骤，工具调用链条长它不会中途报错，多轮确认之后它还记得最开始的需求边界。

用的过程你就会发现，它说的东西真的好长好多。。啥都考虑进去了。。

OK，青铜层次能用，但有个隐藏问题：每次开发新 Skill，都要重新整理 SOP、重新写提示词。整理质量不稳定，提示词写得不一样，最后 Skill 质量也不稳定。

接下来升级到「白银」玩法

白银：开发一个专门用来开发 Skill 的 Skill

把开发 Skill 这件事本身，封装成一个可复用的 Skill。

这个 Skill 的核心是五维提问框架。它不会直接帮你写 Skill，而是先系统地问你五个维度的问题，直到业务逻辑完全清晰，再进入开发阶段。

五个维度对应上面的公式：

WHEN 定场景：这个 Skill 什么时候用，用户会说什么话触发它，什么情况下明确不用

WHAT 立目标：跑完这个 Skill 手里有什么，合格的输出是什么样，什么叫失败

HOW 理规则：人工完成这件事的完整步骤，每步的判断逻辑，哪步最容易出错

REFERENCE 给示例：有没有好案例参考，踩过哪些坑，有没有现成模板

LIMITS 划边界：哪些操作必须人工确认，异常情况怎么处理，什么绝对不能做

五个维度问完，Skill 会整理出 SOP 确认稿让你确认，梳理得非常细：

再输出 Skill 规划方案------这个场景要拆几个 Skill、每个 Skill 职责是什么、建议开发顺序。复杂任务就是需要这样多skills协作。

SOP 梳理的质量被标准化了。不管是你自己来，还是团队里其他人来，走完这个流程，输出的 Skill 质量会稳定在一个水准之上。

GLM-5-Turbo 的长任务持续执行能力在这个层次体现得最明显。五维问答通常需要 3-4 轮对话，中间还要跑搜索、整理 SOP、规划架构，整个链条很长。它能从头到尾保持状态，不会到第三轮的时候把第一轮确认好的边界忘掉。

但白银层次还没解决一个问题：Skill 用了一段时间之后需要迭代，怎么管？

随着 Skill 越来越多，哪些在用、哪些出了问题、哪些需要迭代，这些信息如果没人管，Skill 库会越来越乱。

黄金：一个 Agent，管理 Skill 的完整生命周期

这才是昨晚，也就是文章开头故事的底层逻辑。

不是开发一个 Skill，而是建一个专门负责 Skill 生命周期的 Agent。

这个 Agent 的工作流完整跑下来是这样的：

你发一张业务流程图，说「我想把这个场景做成 Skill」。Agent 先去搜索行业最佳实践，然后用五维提问框架问你业务细节，整理出 SOP 确认稿让你确认，规划 Skill 方案，你决定先开发哪个，它进入开发模式，生成完整的 Skill 文件结构，自测，安全审计，安装到正式目录，记入长期记忆。

每天早上自动跑 Skill 健康巡检，每周一分析哪些 Skill 使用频率高、哪些出过错误，每周五跑安全复查。

安全这块有硬规定：capabilities 字段只申请实际用到的权限、没有硬编码密钥、所有写操作前有人工确认节点、异常情况有明确的处理逻辑。审计没过不安装，哪怕你催。

核心配置四个文件：

SOUL.md 刻入 Agent 的身份和底线------使命是业务翻译官，五维问答没跑完不规划 Skill，SOP 确认稿没得到用户确认不开始写文件，安全审计没过不安装。

AGENTS.md 定义七个开发阶段的操作规范，从需求接收、五维提问、SOP 确认、Skill 规划、文件开发、自测，到安全审计和安装，每个阶段的触发条件和交付标准都写死。

TOOLS.md 定义可用工具和每个工具的使用边界，包括搜索调研、文件操作、代码执行、记忆系统、Agent 间通信。

HEARTBEAT.md 定义三个定时任务------每日巡检、每周使用分析、每周安全复查。

我把 NGS 的 pSEO 内容引擎架构图发给了这个 Agent。

它跑了九个问题的五维问答，整理出 SOP 确认稿，我确认之后它规划出「1 主 + 2 子」的三个 Skill 方案，然后顺序开发，9 个文件全部生成，自测三个评测用例全通过，安全审计五项全绿，安装完成，更新 MEMORY.md 归档。

这就是开头那一幕的完整版本。

直接让它跑一个关键词的写文章测试：

也是能走完完整流程，并且给我写好的文章结果。

GLM-5-Turbo 在黄金层次的价值最难被替代：从你说第一句话到三个 Skill 全部安装，中间跨越几十轮工具调用和多次 SubAgent 并行，整个链条一个小时，它没有中途失忆，没有跑飞，每个关键节点该停下来确认的都停了，该自己跑的都跑完了。

这正是它被定位为龙虾模型的原因------不是最聪明，是最能跑完一个完整任务。

🌅

福利！黄金层次的Agent 完整配置文件（SOUL.md / AGENTS.md / TOOLS.md / HEARTBEAT.md）&提示词

关注公众号「饼干哥哥 AGI」

回复关键词「龙虾skill」获取。

这三个层次，不是选一个，是逐步升级

青铜的提示词是白银 Skill 的前身，白银的 Skill 被包含在黄金 Agent 里。

没有 SOP 梳理能力，Agent 再强也问不出有价值的问题。

你今天从青铜开始也完全可以。整理一个业务 SOP，用提示词让 GLM-5-Turbo 帮你开发一个 Skill，跑通一遍。然后再想要不要升级到白银和黄金。

最后

OpenClaw 好不好用，跟你装了多少 Skill 没关系，跟用什么模型也没有直接关系。

它取决于你有没有把业务 SOP 梳理清楚，然后把这个 SOP 变成 Skill。

我开头说，没有什么现成的 Skill 可以推荐。

这不是谦虚，是真相。

好用的 Skill 都是自己调教出来的。但「调教」这件事本身也可以被 SOP 化，可以被工程化，可以变成一条可以复制的流水线。

这才是 OpenClaw 在跨境电商真正落地的方式。