1. 学习的来源
请各位可以关注这个博主,进行学习:https://space.bilibili.com/1815948385?spm_id_from=333.788.upinfo.head.click
2. CLAUDE 的学习内容
2.1 AGENT 的学习
2.1.1 Agent 的核心定义与核心价值
- 定义 :将大模型与各类外部工具组装结合,形成的能自主感知和改变外界环境的智能程序,区别于单纯的大模型,Agent 常以机器人图标表示,拥有类似 "感官和四肢" 的工具能力,而大模型仅为 "大脑"。
- 核心价值 :赋予传统大模型行动力和感知力,使其能自主与外部世界交互,自动化完成复杂任务,彻底突破大模型 "只能回答、无法行动" 的应用边界,是大模型从 "被动响应" 走向 "主动执行" 的关键技术。
- 与传统大模型的对比:传统大模型(如 GPT-4、DeepSeek)擅长逻辑推理和问题解答,但存在两大核心局限 ------ 无法感知外界环境(需用户主动提供数据 / 代码,无法自行查找)、无法改变外界环境(仅能生成代码,无法自行写入文件 / 运行程序);Agent 通过集成工具解决了这两大问题,实现全流程自动化。
2.1.2 Agent 的核心工具与常见类型
- 核心工具:作为 Agent 的 "感官和四肢",核心为能实现环境交互的工具,包括读取文件内容工具、查看文件列表工具、运行终端命令工具等,Agent 的能力边界由其可调用的工具列表决定。
- 常见类型
- 编程类 Agent:如 Cursor,用户提交编程任务后,Agent 可自动调用工具完成代码编写、运行等全流程,用户仅需简单确认;
- 深度搜索 / 信息整理类 Agent:如 MUS,可自动生成执行计划、搜索网页信息、整理分析结果并形成报告,无需用户介入。
2.1.3 Agent 的核心运行模式 ------ReAct 模式
ReAct 模式是目前 Agent最广泛使用的运行模式,全称为 Reasoning and Acting(思考与行动),由 2022 年 10 月的论文提出,至今仍为行业主流。
- 核心运行流程 :以思考(Thought)- 行动(Action)- 观察(Observation) 为循环核心,直至完成任务并输出最终答案(Final Answer),具体步骤为:用户提交任务→Agent 思考是否需要调用工具→调用对应工具执行行动→观察工具执行结果→重复循环,直至信息足够→输出最终答案。
- 实现核心:系统提示词(System Prompt) :ReAct 模式的运作并非依赖模型的原生训练,而是通过系统提示词引导模型行为,该提示词会与用户问题一同发送给大模型,核心作用为设定模型的角色、运行规则、环境信息等。
- 系统提示词的核心构成 :一份标准的 ReAct 模式系统提示词大致包含五部分,核心为职责描述 (明确模型需按思考 - 行动 - 观察循环执行)、示例演示 (展示典型的 ReAct 流程案例)、可用工具列表(明确模型可调用的工具及使用方式),通过标准化的提示词规范,让大模型严格遵循 ReAct 流程运行。
2.1.4 Agent 的核心构建逻辑
视频围绕 "从零打造简化版 Claude Code",传递了 Agent 的核心构建逻辑:以大模型为核心大脑,搭配适配的外部工具集,通过标准化的运行模式(如 ReAct)和系统提示词进行行为引导,实现感知 - 思考 - 行动的自动化循环。同时提及 Plan-And-Execute 模式,作为 ReAct 之外的另一核心构建模式,为 Agent 的构建提供更多思路。
2.1.5 总结
- 通俗化拆解:通过 "大脑(大模型)- 感官和四肢(工具)" 的比喻,将抽象的 Agent 概念具象化,清晰解释了 Agent 与传统大模型的本质区别,降低技术理解门槛;
- 理论 + 实操:不仅讲解 Agent 的概念、原理和运行模式,还通过打造简化版 Claude Code 的实操演示,让观众将理论落地,理解 Agent 的实际构建过程;
- 抓准核心重点:聚焦 ReAct 这一主流运行模式,深入拆解其流程和实现核心(系统提示词),为观众提供了可落地的 Agent 构建思路;
- 明确技术价值:清晰传递了 Agent 在大模型时代的核心意义,让观众理解为何 Agent 成为技术社区的热门焦点,以及其在自动化任务、扩展大模型应用边界的重要作用。
2.2 Claude 的描述
该部分是 Cloud Code 实战全攻略,详细涵盖环境搭建与基础交互(安装、登录、三种模式切换)、复杂任务处理与终端控制(代办软件开发、架构重构、文件操作、后台任务管理)、高级功能扩展与定制(MCP 对接 Figma、上下文压缩与清空、cloud.md 配置、Hook 自动化、Agent Skill、Sub Agent、Plugin 安装使用)等核心内容,还介绍了模式切换、回滚、终端命令执行等关键操作,帮助用户从入门到落地生产环境,且同类编程 Agent 可通用。

2.2.1 环境搭建与基础交互
-
安装与登录
-
安装:访问 Cloud Code 官网,复制安装命令,在终端粘贴执行即可完成安装。
-
登录方式:提供 2 种标准接入方式,如下表所示: 表格
登录方式 适用人群 核心特点 订阅制 Cloud Pro/Max 会员 直接选择,网页授权即可 API key 非会员用户 按 token 用量计费,用多少花多少 -
兼容扩展:支持 GLM、MiniMax 等国产模型,通过设置环境变量即可适配。
-
-
核心模式切换
-
切换快捷键:
shift+tab,循环切换 3 种模式。 -
模式详情: 表格
模式名称 标识特征 核心功能 适用场景 默认模式 底部显示 "? For shortcuts" 创建 / 修改文件前必询问用户 需谨慎操作的场景 自动模式 底部显示 "accept edits on" 本次会话自动同意所有文件操作 无需反复确认的演示 / 开发 规划模式 底部显示 "plan mode" 只讨论方案,不执行任何操作 复杂项目的方案构思
-
-
辅助操作
- 终端命令执行:输入
!+终端命令,即可在 Cloud Code 内运行终端功能(如!open index.html打开文件)。 - 编辑器切换:按
CTRL+G,可打开 VS Code 标签页编辑内容,解决终端输入框操作不便的问题(需提前安装 VS Code)。
- 终端命令执行:输入
2.2.2 复杂任务处理与终端控制
- 项目开发与重构
- 初始开发:向 Cloud Code 提出需求(如 "用 HTML 做代办软件"),其自动生成 index.html 文件,需选择文件操作授权方式(3 种选项:单次授权 / 全量授权 / 拒绝)。
- 架构重构:在规划模式下提出需求(重构为 React+TypeScript+Vite),按
shift+回车换行补充要求(保留功能、UI 一致),确认方案后执行重构。
- 后台任务管理
- 任务阻塞:启动服务器等任务(如
npm run dev)会阻塞 Cloud Code,无法处理新请求。 - 后台挂起:按
CTRL+B可将当前任务放置后台,释放 Cloud Code 处理新请求。 - 任务查看与关闭:输入
/tasks查看后台任务,按K关闭指定任务,按ESC返回主界面。
- 任务阻塞:启动服务器等任务(如
- 功能迭代与回滚
- 功能新增:直接输入需求(如 "右上角增加中英切换功能"),Cloud Code 自动修改文件,实时生效。
- 回滚操作:支持 2 种方式,一是输入
/rewind命令,二是双击ESC进入回滚页面,选择回滚点后,可选择 4 种回滚范围(代码 + 会话 / 仅会话 / 仅代码 / 放弃回滚)。 - 回滚限制:仅能回滚 Cloud Code 自身写入的文件,终端命令(如
mkdir、npm install)生成的文件需手动删除。
2.2.3 高级功能扩展与定制
- MCP(模型沟通渠道)
- 核心用途:对接外部工具(如 Figma),精准还原设计稿(获取截图、间距、字体等详细信息)。
- 操作步骤:安装 MCP Server→
/resume恢复会话(或cloud -c自动恢复上一次会话)→/mcp授权→粘贴 Figma 设计稿链接→Cloud Code 调用工具生成代码。
- 上下文管理
- 压缩:输入
/compact命令,可选择性追加压缩策略(如保留用户需求),压缩后通过CTRL+O查看结果,减少 token 消耗、提升性能。 - 清空:输入
/clear命令,直接清空所有上下文内容,适用于新任务与历史上下文无关的场景。
- 压缩:输入
- cloud.md 配置文件
- Hook 功能(自动化逻辑)
- 核心作用:在工具执行前后触发自定义逻辑(如代码格式化)。
- 配置步骤:
/hooks→选择执行时机(如 post tool use)→指定触发工具(write/edit)→输入逻辑命令→选择保存级别(3 种:本地项目级 / 项目级 / 用户级)。 - 示例效果:创建单行 HTML 文件后,Hook 自动调用 prettier 格式化代码,生成规范格式文件。
- Agent Skill(动态 Prompt)
- 用途:解决重复需求(如固定格式日报),无需反复输入要求。
- 创建步骤:在
~/.cloud/skills目录下新建文件夹→创建skill.md(包含名称、描述、格式要求)→重启 Cloud Code。 - 调用方式:自动调用(Cloud Code 识别需求匹配)或手动调用(
/技能名称+需求)。
- Sub Agent(独立代理)
-
核心特点:拥有独立上下文、工具、Skill,仅返回最终结果,不占用主会话上下文。
-
与 Agent Skill 的区别: 表格
对比维度 Agent Skill Sub Agent 上下文 继承共享主会话上下文 独立上下文,不回传中间过程 适用场景 与上下文关联大、影响小的任务(如写日报) 与上下文关联小、影响大的任务(如代码审核) 调用方式 自动 / 手动 主 Agent 调用或手动触发 -
创建步骤:
/agent→选择级别(项目 / 用户)→选择创建方式(Cloud Code 初始化 / 手动)→描述功能→配置工具 / 模型 / 颜色→编辑描述文件。
-
- Plugin(插件)
- 本质:打包 Skill、Sub Agent、Hook 等能力的安装包(类似 DMG/EXE)。
- 操作步骤:
/plugin→选择发现插件(discover)→选择插件→选择安装范围(3 种:当前用户 / 当前项目 / 当前用户 + 项目)→重启生效。 - 示例:安装
front and design插件(含 Agent Skill),可生成更美观、符合现代审美的前端界面。 - 扩展:支持将自定义配置(Skill/Sub Agent 等)打包为插件,分享给团队 / 社区。
2.2.4 关键注意事项
- 危险参数:
--dangerously-skip-permissions,启动时添加该参数可跳过所有权限检测,终端命令自动执行,但存在安全风险(拥有用户级终端权限)。 - 换行操作:在规划模式或输入长需求时,按
shift+回车换行,避免回车直接提交。 - 版本要求:
shift+回车换行功能需使用新版本 Cloud Code,旧版本需升级。
2.2.5 关键问题
问题 1:Cloud Code 的 3 种模式具体区别是什么,如何切换?
-
答案:3 种模式通过
shift+tab循环切换,核心区别如下:表格
模式 标识 核心行为 适用场景 默认模式 底部显示 "? For shortcuts" 创建 / 修改文件前必询问用户 需谨慎操作、避免误改的场景 自动模式 底部显示 "accept edits on" 本次会话内所有文件操作自动同意 无需反复确认的高效开发 / 演示场景 规划模式 底部显示 "plan mode" 仅讨论方案,不执行任何文件操作 复杂项目的方案构思、需求细化场景
问题 2:Cloud Code 中 Agent Skill 与 Sub Agent 的核心差异是什么,分别适用于什么场景?
- 答案:核心差异在于上下文处理方式 ,适用场景因此不同:
- Agent Skill:继承并共享主会话上下文,执行过程的日志、思考均计入主上下文,适用于与上下文关联紧密、对主上下文影响小的任务(如根据当日开发过程写固定格式日报)。
- Sub Agent:拥有独立上下文,中间过程不回传主会话,仅返回最终结果,适用于与上下文关联弱、对主上下文影响大的任务(如几万行代码的审核,避免主上下文被塞满导致性能下降)。
问题 3:如何利用 Cloud Code 精准还原 Figma 设计稿,关键步骤有哪些?
- 答案:通过 MCP 功能对接 Figma 实现精准还原,关键步骤共 5 步:
- 安装 Figma MCP Server:执行官方提供的安装命令,完成后退出 Cloud Code。
- 恢复会话:通过
/resume选择目标会话,或用cloud -c自动恢复上一次会话。 - 授权 MCP 工具:输入
/mcp→选择 Figma MCP→选择authenticate→网页授权通过。 - 提交需求与链接:输入 "修改页面与 Figma 稿件一致",粘贴 Figma 设计稿链接(通过 "copy link to selection" 复制)并提交。
- 同意工具调用:Cloud Code 会请求调用
get design context(获取设计上下文)和get screenshot(获取截图)工具,依次同意后,即可自动生成匹配设计稿的代码。
2.3 什么是SKILL
2.3.1 直击核心:Agent Skill 到底是什么?
如果把大模型比作一个拥有超高通用智商的「全能人才」,那么 Agent Skill 就是为这个人才量身定制的标准化岗位 SOP(标准作业程序),这是对其本质最生动的诠释。从技术定义来看,Agent Skill 是 Anthropic 于 2025 年确立的开放式 AI 代理构建标准,它不再是传统的一段提示词文本,而是将复杂的 Prompt 工程、外部知识库、执行逻辑封装为一套基于文件系统的开放标准格式,是扩展 AI Agent 能力的轻量级、模块化功能单元。
在大模型应用开发的早期,开发者只能通过反复打磨 Prompt 来引导模型完成任务,但随着业务逻辑越来越复杂,单纯的 Prompt 暴露出诸多致命问题:上下文窗口被无关信息挤占导致模型注意力分散,长文本指令难以复用、维护成本极高,而 Agent Skill 的出现,标志着 Agent 开发正式进入了标准化、模块化的新阶段。它为大模型补全了「程序化记忆」的拼图,让 AI 代理既能保留大模型的通用推理能力,又能拥有传统软件般严谨的执行逻辑,是构建复杂业务 AI 工作流的核心基石。
2.3.2 底层精髓:渐进式披露机制,极致保护上下文窗口
Agent Skill 的核心竞争力,在于其背后独创的渐进式披露(Progressive Disclosure)机制------ 这是一套为大模型上下文窗口量身打造的「分级加载策略」,将上下文视为稀缺的公共资源,坚决杜绝无关信息的侵占,这也是它能大幅降低 Token 消耗、提升任务执行效率的关键。
这套机制并非简单的按需加载,而是设计了四级严密的加载层级,不同层级的内容在不同时机触发加载,Token 消耗权重逐级区分,让 AI 代理在闲置时极度轻量,处理复杂任务时又能瞬间调用全套能力,具体层级如下:
- L1 元数据层(Metadata):常驻加载,仅包含 Skill 的名称、描述、版本号,Token 消耗极低(<1%)。作用是让 AI 代理知道「自己拥有这个能力」,但不知道「具体该怎么做」,哪怕挂载几百个 Skill,也仅占用少量 Token,毫无负担。
- L2 指令层(Instruction) :命中后加载,核心是 Skill 文件夹下的
SKILL.md正文规则,Token 消耗中等(5-10%)。只有当用户的请求与 L1 的描述产生语义匹配时,这部分详细的业务处理逻辑和 SOP 才会被加载进上下文,任务结束后还可根据需求释放,动态且高效。 - L3 参考层(Reference):条件触发加载,包含外部文档、行业手册、专业规范等,Token 消耗较高且可变。这部分内容不会随 L2 自动加载,只有 Agent 执行到具体步骤需要专业知识支撑时,才会按需读取,用完即弃。
- L4 脚本层(Script):仅执行加载,包含 Python/Shell 等可执行脚本,Token 消耗为 0(模型不读取代码,仅执行)。用于实现物理世界的「副作用」,比如数据处理、文件生成,且不同于传统工具调用需要服务端 API 支持,Skill 的脚本是客户端本地执行,响应更快。
实测数据显示,这种机制在处理长链条业务流程时,能将上下文 Token 消耗降低 60%-80%,同时大幅提升长文本任务中的指令遵循准确率,在知识库应用中,还能让首字延迟降低 45%、Token 成本节省 92%,效果堪称惊艳。
2.3.3 实操指南:Agent Skill 的使用核心要点
视频中围绕 Agent Skill 的实际应用,给出了清晰的使用逻辑和实操原则,核心是 **「标准化文件结构 + 轻量化开发 + 模块化复用」**,脱离了传统 Prompt 的零散化开发模式,让 Skill 能被版本管理、团队共享,成为企业的核心技术资产。
1. 核心文件结构
Agent Skill 基于本地文件系统构建,核心结构围绕SKILL.md展开,配套元数据配置文件、参考资料文件夹、脚本文件夹,所有文件层级保持一致,避免嵌套引用,让模型能快速识别和读取。
2. 开发与使用的关键原则
- 精简核心:
SKILL.md的内容保持在 500 行以内,简洁清晰,使用统一术语,避免冗余信息; - 分离存储:将详细的参考资料、专业知识移至单独的文件,核心文件中仅展示基本内容,通过链接指向高级内容;
- 路径规范:文件路径统一使用正斜杠,即使在 Windows 系统中也不例外,保证跨平台兼容性;
- 自由度适配:根据业务需求设计 Skill 的自由度,通用任务采用高自由度(仅文本指导),专业任务采用中等自由度(附带伪代码、示例模板),确保执行效果的同时保留一定灵活性。
3. 核心使用场景
Agent Skill 可封装任意具体的 AI 能力,比如「会议纪要生成」「客户投诉处理」「股票分析」「邮件发送」等,企业可根据自身业务,构建专属的 Skill Library(技能库),让 AI 代理快速适配不同岗位需求。例如构建meeting-auditor技能,可让 AI 同时实现会议总结、合规审计、自动归档三大功能,一站式解决会议管理需求。
2.3.4 易混辨析:Agent Skill 与 MCP 的区别与选择
视频中重点解答了开发者最困惑的问题 ------Agent Skill 与 MCP(Model Context Protocol)的区别,以及实际应用中该如何选择。二者并非对立关系,而是属于 AI Agent 架构中不同抽象层级的技术,一个是「功能包」,一个是「通用接口」,搭配使用能实现 1+1>2 的效果。
为了更清晰区分,我们从核心维度做直观对比,同时结合实际场景给出选择建议:
1. 核心维度对比
| 对比维度 | Agent Skill | MCP(Model Context Protocol) |
|---|---|---|
| 核心定义 | AI Agent 的功能单元抽象,代表具体能力(如查天气、写报告),封装提示词 + 逻辑 + 工具 | 大模型与外部工具 / 服务的标准化通信协议,是跨平台的通用接口规范 |
| 技术层级 | 应用层(Application Layer) | 协议层(Protocol Layer) |
| 提出方与定位 | Anthropic2025 年确立的开放标准,Agent 能力的封装单元,框架内核心概念 | Modular2024 年开源(Anthropic 深度支持),跨厂商的通信标准,被称为 AI 领域的「USB-C 接口」 |
| 作用范围 | 可跨框架使用,核心是实现具体业务功能 | 跨框架、跨模型,解决大模型与外部工具的互操作性问题 |
| 部署方式 | 集成在 AI Agent 应用中,本地文件系统架构 | 独立 MCP Server 部署,基于 JSON-RPC 2.0 通信 |
| 核心类比 | 带 USB 接口的「打印机」(具体功能设备) | USB「接口标准」/ 高速公路(通用通道) |
2. 核心关系:MCP 是 Skill 的「最佳底层搭档」
二者并非二选一,而是协同工作的关系:Agent Skill 解决「做什么」的问题,MCP 解决「怎么做」的问题,MCP 可以作为 Agent Skill 的底层实现,让 Skill 的能力更通用、更灵活。
例如构建一个「股票分析 Skill」,Skill 定义了「PE 比率 > 50 时需做高估值风险提示」的业务逻辑,而底层的股票实时数据,并非由 Skill 直接获取,而是通过 MCP 协议调用Yahoo Finance MCP Server得到,这样既保证了 Skill 的业务逻辑纯粹性,又借助 MCP 实现了跨模型的数据获取,让 Skill 能在 Claude、ChatGPT、Gemini 等任意大模型中使用。
3. 实际应用:该选谁?
- 若需求是实现具体的业务功能,比如让 AI 代理完成会议总结、客户接待、数据处理,直接开发 / 使用 Agent Skill 即可;
- 若需求是让多个大模型 / 框架共用同一个外部工具,比如让 Ollama、DeepSeek、Claude 都能调用同一个日历工具、数据库,优先使用 MCP;
- 若构建企业级 AI Agent 平台,需要支持第三方工具接入、跨模型协同,必然是「Agent Skill + MCP」组合,Skill 封装业务能力,MCP 实现标准化对接。
2.3.5 学习感悟与技术展望
1. 核心学习收获
本次学习让我彻底摆脱了「大模型开发 = 打磨 Prompt」的固有认知,认识到 Agent Skill 的出现是 AI 开发的重要里程碑:它将大模型应用开发从「零散的提示词工程」升级为「标准化的技能工程」,让 AI 代理的能力可封装、可复用、可管理,普通开发者也能快速构建出复杂的 AI 业务流,真正实现「一人抵一个开发团队」的效果。
而渐进式披露机制的设计思路,更是让我感受到大模型应用开发的核心逻辑 ------极致利用上下文窗口,让 AI 代理「轻装上阵」,这一思路不仅适用于 Agent Skill,也适用于所有大模型 Agent 的开发。
2. 技术发展展望
Agent Skill 作为 2026 年最火的 AI 技术之一,其发展趋势非常明确:
- 标准化程度持续提升:随着 Anthropic 等厂商的推动,Agent Skill 将成为大模型 Agent 开发的通用标准,各类国产大模型也将逐步完成适配,视频中提出的「国产模型能用 Skills 吗」的问题,答案必然是「全面支持」;
- 与 MCP 深度融合:未来的 Skill 类抽象,底层将普遍采用 MCP 协议,实现「一次编写,到处调用」,让 AI 能力的跨平台复用成为常态;
- 技能库生态化:无论是开源社区还是企业,都会构建专属的 Skill Library,成为 AI 时代的核心技术资产,像视频中提到的「10 个神级 Agent Skills」将成为常态,开发者可直接复用现成 Skill,大幅降低开发成本;
- 多 Agent 协同:基于 Agent Skill,将实现更高效的多 Agent 协同,比如用 Kimi K2.5 控制 100 个 Agent,每个 Agent 挂载专属 Skill,分工协作完成超复杂任务,真正实现「AI 大军」的落地。