OpenClaw,212K Star,GitHub 历史第一。

中国部署量全球第一。字节、阿里、腾讯争着上线云服务。
Skills 社区接近 2000 个技能包,从写代码到发邮件,从浏览器自动化到数据库管理,应有尽有。
我花了一下午,把整个 Skills 市场翻了一遍。
文件操作的------有。
数据分析的------有。
Git 操作的------有。
发邮件的------有。
调各种 SaaS API 的------一大堆。
视觉检测的------没有。
不是"很少"。是几乎为零。
零星有几个调 GPT-4o 看图的 Skill。但让通用大模型看一张质检图片说"好像有点问题",和让 YOLO 精确标出缺陷位置、类型、置信度------这是两件完全不同的事。
一个 212K Star 的 Agent 平台,在视觉能力上,几乎是空白。
为什么?
第一个原因,也是最根本的原因:做 Skill 的人和做 CV 的人,压根不是同一群人
OpenClaw 的核心用户是谁?全栈开发者、后端工程师、独立开发者。他们的日常是写代码、管服务器、做 Web 应用。
所以 Skills 社区里最多的就是代码类和 API 类工具。因为做 Skill 的人,自己就在用这些东西。需求和供给完美闭环。
而 CV 工程师呢?
他们每天在训练 YOLO、调数据集、跑推理、写部署脚本。对 OpenClaw 的认知大多停留在"那个帮人写代码的 AI 助手"。
跟我有什么关系?
一边不知道视觉模型能接进 Agent,一边不知道 Agent 能调度视觉模型。信息差,造成了供给空白。
第二个原因:视觉 Skill 确实比文本 Skill 难做一个量级
做一个文本类 Skill,本质上就是字符串进、字符串出。OpenClaw 天然支持,几十行代码搞定。
但视觉 Skill 呢?
首先,推理环境重。YOLO 需要 PyTorch,要 GPU 加速还得配 CUDA。这跟调一个 REST API 不在一个复杂度上。
其次,模型文件大。通用 YOLO 模型几十 MB,行业专用的更大。Skills 社区目前根本没有处理大文件分发的机制。
再次,图像的输入输出不标准。OpenClaw 的工具交互主要是文本。一张图片怎么传?Base64?文件路径?URL?每种方式都有坑。MCP 协议对二进制数据的支持,现在还在完善中。
最后,也是最关键的------行业差异太大。一个能检测猫狗的通用模型没有任何商业价值。真正有用的是检测 PCB 焊点缺陷、钢板表面划痕、电力线路异物的专用模型。但这些需要行业数据训练,一个通用 Skill 覆盖不了。
不是没人想做。是做好,确实难。
第三个原因,可能很多人没有意识到:OpenClaw 的设计哲学,和工业视觉的场景,天然有错位
OpenClaw 的假设是:你面前有一台电脑,Agent 帮你操作这台电脑。
但工业视觉不是这样的。
产线相机拍的图片不在你的笔记本上。监控视频流在 NVR 里。无人机照片在 SD 卡或者云端。
OpenClaw 的"操作本地电脑"模式,和工业视觉的"分布式数据源"模式,天生就不在一个频道上。
要打通这两个世界,中间需要一个桥------把分散在各处的视觉数据,汇聚到 Agent 能触达的地方。
这个桥,目前没人搭。
那视觉 Agent 是不是还早?
说到这里,很多人会觉得:那视觉 Agent 是不是还早?
恰恰相反。
技术全部就绪了。缺的只是有人把它们连起来。
YOLO 已经迭代到第 26 版,工业场景精度和速度都是生产级。MCP 协议让任何 Python 服务都能被 Agent 调用。OpenClaw 本身的推理和调度能力已经成熟。
一个 CV 工程师,把自己的 YOLO 推理代码用 FastMCP 包装成 MCP Server,代码量不到 100 行,就能让 OpenClaw 具备视觉能力。
技术门槛?几乎没有。
真正的门槛是认知:CV 工程师不觉得这件事跟自己有关
但我想说一组数字。
- 用 OpenClaw 自动写一篇公众号文章,省 2 小时。
- 用 OpenClaw + YOLO 做产线质检自动化,省 3 个质检员,一年省 30-50 万。
- 用 OpenClaw 自动回客服消息,提升响应速度。
- 用 OpenClaw + 视觉模型做电力巡检,减少 70% 的高危人工作业。
朋友圈里的 OpenClaw 用例,省的是时间。
产线上的 OpenClaw 用例,省的是人头。
商业价值差了一个量级。
但偏偏,Skills 社区里 1999 个 Skill 都在解决前者,几乎没有人做后者。
这让我想到一句话:
OpenClaw 生态目前还是"码农生态",不是"产业生态"。
写代码的人在给自己做工具。工厂里的人、产线上的人、田间地头的人------他们的需求,还没有被 Agent 生态看见。
这个局面不会持续太久。
当第一个真正好用的视觉 Skill 出现在 Skills 社区里------
当第一个工厂用 OpenClaw + YOLO 自动跑完质检流水线------
当第一个落地案例被公众号和技术社区报道------
视觉 Agent 这扇门就会被踹开。
然后你会看到质检 Skill、安防 Skill、OCR Skill、巡检 Skill、分割 Skill、3D 检测 Skill......像 2024 年的 AI 编程工具一样涌现出来。
现在是蓝海。真正的蓝海。
谁来做这件事?
OpenClaw 官方大概率不会。他们做的是通用框架,不会深入垂直视觉领域。
大厂也不太会。阿里云、百度飞桨更可能在自家平台上集成 OpenClaw,而不是反过来给 OpenClaw 做 Skill。方向不一样。
最可能做成这件事的,是两种人:
一种是专注视觉模型训练和部署的公司。他们有现成的模型库、推理服务、API 接口,把已有能力包装成 MCP 工具在技术上并不难。
另一种是 CV 工程师个人。
你手里有训练好的模型,你有行业 know-how,你了解真实场景的需求。
100 行 Python 代码,一个下午,你就能做出 Skills 社区里第一个真正能用的视觉检测工具。
这件事的技术门槛不高。
但谁先做,谁就先占住这个生态位。
最后一句
OpenClaw 爆火以来,CV 圈子里有一种焦虑:Agent 时代来了,做视觉的是不是要被边缘化?
我的判断恰好相反。
2000 个 Skills 里没有一个好用的视觉检测工具------这不是一个坏消息。
这说明你的能力,在新生态里还没有被代表。
全世界都在教 OpenClaw 写代码、发邮件、管日程。
但让 Agent 真正走进工厂、走上产线、飞到田间------这件事,只有你能做。