CLAUDE 综合使用教程

1. 学习的来源

请各位可以关注这个博主，进行学习：https://space.bilibili.com/1815948385?spm_id_from=333.788.upinfo.head.click

2. CLAUDE 的学习内容

2.1 AGENT 的学习

2.1.1 Agent 的核心定义与核心价值

定义：将大模型与各类外部工具组装结合，形成的能自主感知和改变外界环境的智能程序，区别于单纯的大模型，Agent 常以机器人图标表示，拥有类似 "感官和四肢" 的工具能力，而大模型仅为 "大脑"。
核心价值 ：赋予传统大模型行动力和感知力，使其能自主与外部世界交互，自动化完成复杂任务，彻底突破大模型 "只能回答、无法行动" 的应用边界，是大模型从 "被动响应" 走向 "主动执行" 的关键技术。
与传统大模型的对比：传统大模型（如 GPT-4、DeepSeek）擅长逻辑推理和问题解答，但存在两大核心局限 ------ 无法感知外界环境（需用户主动提供数据 / 代码，无法自行查找）、无法改变外界环境（仅能生成代码，无法自行写入文件 / 运行程序）；Agent 通过集成工具解决了这两大问题，实现全流程自动化。

2.1.2 Agent 的核心工具与常见类型

核心工具：作为 Agent 的 "感官和四肢"，核心为能实现环境交互的工具，包括读取文件内容工具、查看文件列表工具、运行终端命令工具等，Agent 的能力边界由其可调用的工具列表决定。
常见类型
- 编程类 Agent：如 Cursor，用户提交编程任务后，Agent 可自动调用工具完成代码编写、运行等全流程，用户仅需简单确认；
- 深度搜索 / 信息整理类 Agent：如 MUS，可自动生成执行计划、搜索网页信息、整理分析结果并形成报告，无需用户介入。

2.1.3 Agent 的核心运行模式 ------ReAct 模式

ReAct 模式是目前 Agent最广泛使用的运行模式，全称为 Reasoning and Acting（思考与行动），由 2022 年 10 月的论文提出，至今仍为行业主流。

核心运行流程 ：以思考（Thought）- 行动（Action）- 观察（Observation） 为循环核心，直至完成任务并输出最终答案（Final Answer），具体步骤为：用户提交任务→Agent 思考是否需要调用工具→调用对应工具执行行动→观察工具执行结果→重复循环，直至信息足够→输出最终答案。
实现核心：系统提示词（System Prompt） ：ReAct 模式的运作并非依赖模型的原生训练，而是通过系统提示词引导模型行为，该提示词会与用户问题一同发送给大模型，核心作用为设定模型的角色、运行规则、环境信息等。
系统提示词的核心构成 ：一份标准的 ReAct 模式系统提示词大致包含五部分，核心为职责描述 （明确模型需按思考 - 行动 - 观察循环执行）、示例演示 （展示典型的 ReAct 流程案例）、可用工具列表（明确模型可调用的工具及使用方式），通过标准化的提示词规范，让大模型严格遵循 ReAct 流程运行。

2.1.4 Agent 的核心构建逻辑

视频围绕 "从零打造简化版 Claude Code"，传递了 Agent 的核心构建逻辑：以大模型为核心大脑，搭配适配的外部工具集，通过标准化的运行模式（如 ReAct）和系统提示词进行行为引导，实现感知 - 思考 - 行动的自动化循环。同时提及 Plan-And-Execute 模式，作为 ReAct 之外的另一核心构建模式，为 Agent 的构建提供更多思路。

2.1.5 总结

通俗化拆解：通过 "大脑（大模型）- 感官和四肢（工具）" 的比喻，将抽象的 Agent 概念具象化，清晰解释了 Agent 与传统大模型的本质区别，降低技术理解门槛；
理论 + 实操：不仅讲解 Agent 的概念、原理和运行模式，还通过打造简化版 Claude Code 的实操演示，让观众将理论落地，理解 Agent 的实际构建过程；
抓准核心重点：聚焦 ReAct 这一主流运行模式，深入拆解其流程和实现核心（系统提示词），为观众提供了可落地的 Agent 构建思路；
明确技术价值：清晰传递了 Agent 在大模型时代的核心意义，让观众理解为何 Agent 成为技术社区的热门焦点，以及其在自动化任务、扩展大模型应用边界的重要作用。

2.2 Claude 的描述

该部分是 Cloud Code 实战全攻略，详细涵盖环境搭建与基础交互（安装、登录、三种模式切换）、复杂任务处理与终端控制（代办软件开发、架构重构、文件操作、后台任务管理）、高级功能扩展与定制（MCP 对接 Figma、上下文压缩与清空、cloud.md 配置、Hook 自动化、Agent Skill、Sub Agent、Plugin 安装使用）等核心内容，还介绍了模式切换、回滚、终端命令执行等关键操作，帮助用户从入门到落地生产环境，且同类编程 Agent 可通用。

2.2.1 环境搭建与基础交互

安装与登录
- 安装：访问 Cloud Code 官网，复制安装命令，在终端粘贴执行即可完成安装。
- 登录方式：提供 2 种标准接入方式，如下表所示：表格
  
  登录方式适用人群核心特点
  
  订阅制 Cloud Pro/Max 会员直接选择，网页授权即可
  
  API key 非会员用户按 token 用量计费，用多少花多少
- 兼容扩展：支持 GLM、MiniMax 等国产模型，通过设置环境变量即可适配。

登录方式	适用人群	核心特点
订阅制	Cloud Pro/Max 会员	直接选择，网页授权即可
API key	非会员用户	按 token 用量计费，用多少花多少

核心模式切换

切换快捷键：shift+tab，循环切换 3 种模式。

模式详情：表格

模式名称	标识特征	核心功能	适用场景
默认模式	底部显示 "? For shortcuts"	创建 / 修改文件前必询问用户	需谨慎操作的场景
自动模式	底部显示 "accept edits on"	本次会话自动同意所有文件操作	无需反复确认的演示 / 开发
规划模式	底部显示 "plan mode"	只讨论方案，不执行任何操作	复杂项目的方案构思

辅助操作
- 终端命令执行：输入!+终端命令，即可在 Cloud Code 内运行终端功能（如!open index.html打开文件）。
- 编辑器切换：按CTRL+G，可打开 VS Code 标签页编辑内容，解决终端输入框操作不便的问题（需提前安装 VS Code）。

2.2.2 复杂任务处理与终端控制

项目开发与重构
- 初始开发：向 Cloud Code 提出需求（如 "用 HTML 做代办软件"），其自动生成 index.html 文件，需选择文件操作授权方式（3 种选项：单次授权 / 全量授权 / 拒绝）。
- 架构重构：在规划模式下提出需求（重构为 React+TypeScript+Vite），按shift+回车换行补充要求（保留功能、UI 一致），确认方案后执行重构。
后台任务管理
- 任务阻塞：启动服务器等任务（如npm run dev）会阻塞 Cloud Code，无法处理新请求。
- 后台挂起：按CTRL+B可将当前任务放置后台，释放 Cloud Code 处理新请求。
- 任务查看与关闭：输入/tasks查看后台任务，按K关闭指定任务，按ESC返回主界面。
功能迭代与回滚
- 功能新增：直接输入需求（如 "右上角增加中英切换功能"），Cloud Code 自动修改文件，实时生效。
- 回滚操作：支持 2 种方式，一是输入/rewind命令，二是双击ESC进入回滚页面，选择回滚点后，可选择 4 种回滚范围（代码 + 会话 / 仅会话 / 仅代码 / 放弃回滚）。
- 回滚限制：仅能回滚 Cloud Code 自身写入的文件，终端命令（如mkdir、npm install）生成的文件需手动删除。

2.2.3 高级功能扩展与定制

MCP（模型沟通渠道）
- 核心用途：对接外部工具（如 Figma），精准还原设计稿（获取截图、间距、字体等详细信息）。
- 操作步骤：安装 MCP Server→/resume恢复会话（或cloud -c自动恢复上一次会话）→/mcp授权→粘贴 Figma 设计稿链接→Cloud Code 调用工具生成代码。
上下文管理
- 压缩：输入/compact命令，可选择性追加压缩策略（如保留用户需求），压缩后通过CTRL+O查看结果，减少 token 消耗、提升性能。
- 清空：输入/clear命令，直接清空所有上下文内容，适用于新任务与历史上下文无关的场景。
cloud.md 配置文件
- 生成：输入/init命令，Cloud Code 自动生成项目级 / 用户级 cloud.md 文件。
- 自定义：支持修改内容（如转为中文、添加注意事项），重启 Cloud Code 后生效，确保每次启动都能读取预设信息（如项目需求、注意事项）。
- 快速编辑：输入/memory，可直接打开对应级别的 cloud.md 文件，无需手动查找。
Hook 功能（自动化逻辑）
- 核心作用：在工具执行前后触发自定义逻辑（如代码格式化）。
- 配置步骤：/hooks→选择执行时机（如 post tool use）→指定触发工具（write/edit）→输入逻辑命令→选择保存级别（3 种：本地项目级 / 项目级 / 用户级）。
- 示例效果：创建单行 HTML 文件后，Hook 自动调用 prettier 格式化代码，生成规范格式文件。
Agent Skill（动态 Prompt）
- 用途：解决重复需求（如固定格式日报），无需反复输入要求。
- 创建步骤：在~/.cloud/skills目录下新建文件夹→创建skill.md（包含名称、描述、格式要求）→重启 Cloud Code。
- 调用方式：自动调用（Cloud Code 识别需求匹配）或手动调用（/技能名称+需求）。

Sub Agent（独立代理）

核心特点：拥有独立上下文、工具、Skill，仅返回最终结果，不占用主会话上下文。

与 Agent Skill 的区别：表格

对比维度	Agent Skill	Sub Agent
上下文	继承共享主会话上下文	独立上下文，不回传中间过程
适用场景	与上下文关联大、影响小的任务（如写日报）	与上下文关联小、影响大的任务（如代码审核）
调用方式	自动 / 手动	主 Agent 调用或手动触发

创建步骤：/agent→选择级别（项目 / 用户）→选择创建方式（Cloud Code 初始化 / 手动）→描述功能→配置工具 / 模型 / 颜色→编辑描述文件。

Plugin（插件）
- 本质：打包 Skill、Sub Agent、Hook 等能力的安装包（类似 DMG/EXE）。
- 操作步骤：/plugin→选择发现插件（discover）→选择插件→选择安装范围（3 种：当前用户 / 当前项目 / 当前用户 + 项目）→重启生效。
- 示例：安装front and design插件（含 Agent Skill），可生成更美观、符合现代审美的前端界面。
- 扩展：支持将自定义配置（Skill/Sub Agent 等）打包为插件，分享给团队 / 社区。

2.2.4 关键注意事项

危险参数：--dangerously-skip-permissions，启动时添加该参数可跳过所有权限检测，终端命令自动执行，但存在安全风险（拥有用户级终端权限）。
换行操作：在规划模式或输入长需求时，按shift+回车换行，避免回车直接提交。
版本要求：shift+回车换行功能需使用新版本 Cloud Code，旧版本需升级。

2.2.5 关键问题

问题 1：Cloud Code 的 3 种模式具体区别是什么，如何切换？

答案：3 种模式通过shift+tab循环切换，核心区别如下：

表格

模式	标识	核心行为	适用场景
默认模式	底部显示 "? For shortcuts"	创建 / 修改文件前必询问用户	需谨慎操作、避免误改的场景
自动模式	底部显示 "accept edits on"	本次会话内所有文件操作自动同意	无需反复确认的高效开发 / 演示场景
规划模式	底部显示 "plan mode"	仅讨论方案，不执行任何文件操作	复杂项目的方案构思、需求细化场景

问题 2：Cloud Code 中 Agent Skill 与 Sub Agent 的核心差异是什么，分别适用于什么场景？

答案：核心差异在于上下文处理方式 ，适用场景因此不同：
- Agent Skill：继承并共享主会话上下文，执行过程的日志、思考均计入主上下文，适用于与上下文关联紧密、对主上下文影响小的任务（如根据当日开发过程写固定格式日报）。
- Sub Agent：拥有独立上下文，中间过程不回传主会话，仅返回最终结果，适用于与上下文关联弱、对主上下文影响大的任务（如几万行代码的审核，避免主上下文被塞满导致性能下降）。

问题 3：如何利用 Cloud Code 精准还原 Figma 设计稿，关键步骤有哪些？

答案：通过 MCP 功能对接 Figma 实现精准还原，关键步骤共 5 步：
1. 安装 Figma MCP Server：执行官方提供的安装命令，完成后退出 Cloud Code。
2. 恢复会话：通过/resume选择目标会话，或用cloud -c自动恢复上一次会话。
3. 授权 MCP 工具：输入/mcp→选择 Figma MCP→选择authenticate→网页授权通过。
4. 提交需求与链接：输入 "修改页面与 Figma 稿件一致"，粘贴 Figma 设计稿链接（通过 "copy link to selection" 复制）并提交。
5. 同意工具调用：Cloud Code 会请求调用get design context（获取设计上下文）和get screenshot（获取截图）工具，依次同意后，即可自动生成匹配设计稿的代码。

2.3 什么是SKILL

2.3.1 直击核心：Agent Skill 到底是什么？

如果把大模型比作一个拥有超高通用智商的「全能人才」，那么 Agent Skill 就是为这个人才量身定制的标准化岗位 SOP（标准作业程序），这是对其本质最生动的诠释。从技术定义来看，Agent Skill 是 Anthropic 于 2025 年确立的开放式 AI 代理构建标准，它不再是传统的一段提示词文本，而是将复杂的 Prompt 工程、外部知识库、执行逻辑封装为一套基于文件系统的开放标准格式，是扩展 AI Agent 能力的轻量级、模块化功能单元。

在大模型应用开发的早期，开发者只能通过反复打磨 Prompt 来引导模型完成任务，但随着业务逻辑越来越复杂，单纯的 Prompt 暴露出诸多致命问题：上下文窗口被无关信息挤占导致模型注意力分散，长文本指令难以复用、维护成本极高，而 Agent Skill 的出现，标志着 Agent 开发正式进入了标准化、模块化的新阶段。它为大模型补全了「程序化记忆」的拼图，让 AI 代理既能保留大模型的通用推理能力，又能拥有传统软件般严谨的执行逻辑，是构建复杂业务 AI 工作流的核心基石。

2.3.2 底层精髓：渐进式披露机制，极致保护上下文窗口

Agent Skill 的核心竞争力，在于其背后独创的渐进式披露（Progressive Disclosure）机制------ 这是一套为大模型上下文窗口量身打造的「分级加载策略」，将上下文视为稀缺的公共资源，坚决杜绝无关信息的侵占，这也是它能大幅降低 Token 消耗、提升任务执行效率的关键。

这套机制并非简单的按需加载，而是设计了四级严密的加载层级，不同层级的内容在不同时机触发加载，Token 消耗权重逐级区分，让 AI 代理在闲置时极度轻量，处理复杂任务时又能瞬间调用全套能力，具体层级如下：

L1 元数据层（Metadata）：常驻加载，仅包含 Skill 的名称、描述、版本号，Token 消耗极低（<1%）。作用是让 AI 代理知道「自己拥有这个能力」，但不知道「具体该怎么做」，哪怕挂载几百个 Skill，也仅占用少量 Token，毫无负担。
L2 指令层（Instruction） ：命中后加载，核心是 Skill 文件夹下的SKILL.md正文规则，Token 消耗中等（5-10%）。只有当用户的请求与 L1 的描述产生语义匹配时，这部分详细的业务处理逻辑和 SOP 才会被加载进上下文，任务结束后还可根据需求释放，动态且高效。
L3 参考层（Reference）：条件触发加载，包含外部文档、行业手册、专业规范等，Token 消耗较高且可变。这部分内容不会随 L2 自动加载，只有 Agent 执行到具体步骤需要专业知识支撑时，才会按需读取，用完即弃。
L4 脚本层（Script）：仅执行加载，包含 Python/Shell 等可执行脚本，Token 消耗为 0（模型不读取代码，仅执行）。用于实现物理世界的「副作用」，比如数据处理、文件生成，且不同于传统工具调用需要服务端 API 支持，Skill 的脚本是客户端本地执行，响应更快。

实测数据显示，这种机制在处理长链条业务流程时，能将上下文 Token 消耗降低 60%-80%，同时大幅提升长文本任务中的指令遵循准确率，在知识库应用中，还能让首字延迟降低 45%、Token 成本节省 92%，效果堪称惊艳。

2.3.3 实操指南：Agent Skill 的使用核心要点

视频中围绕 Agent Skill 的实际应用，给出了清晰的使用逻辑和实操原则，核心是 **「标准化文件结构 + 轻量化开发 + 模块化复用」**，脱离了传统 Prompt 的零散化开发模式，让 Skill 能被版本管理、团队共享，成为企业的核心技术资产。

1. 核心文件结构

Agent Skill 基于本地文件系统构建，核心结构围绕SKILL.md展开，配套元数据配置文件、参考资料文件夹、脚本文件夹，所有文件层级保持一致，避免嵌套引用，让模型能快速识别和读取。

2. 开发与使用的关键原则

精简核心：SKILL.md的内容保持在 500 行以内，简洁清晰，使用统一术语，避免冗余信息；
分离存储：将详细的参考资料、专业知识移至单独的文件，核心文件中仅展示基本内容，通过链接指向高级内容；
路径规范：文件路径统一使用正斜杠，即使在 Windows 系统中也不例外，保证跨平台兼容性；
自由度适配：根据业务需求设计 Skill 的自由度，通用任务采用高自由度（仅文本指导），专业任务采用中等自由度（附带伪代码、示例模板），确保执行效果的同时保留一定灵活性。

3. 核心使用场景

Agent Skill 可封装任意具体的 AI 能力，比如「会议纪要生成」「客户投诉处理」「股票分析」「邮件发送」等，企业可根据自身业务，构建专属的 Skill Library（技能库），让 AI 代理快速适配不同岗位需求。例如构建meeting-auditor技能，可让 AI 同时实现会议总结、合规审计、自动归档三大功能，一站式解决会议管理需求。

2.3.4 易混辨析：Agent Skill 与 MCP 的区别与选择

视频中重点解答了开发者最困惑的问题 ------Agent Skill 与 MCP（Model Context Protocol）的区别，以及实际应用中该如何选择。二者并非对立关系，而是属于 AI Agent 架构中不同抽象层级的技术，一个是「功能包」，一个是「通用接口」，搭配使用能实现 1+1>2 的效果。

为了更清晰区分，我们从核心维度做直观对比，同时结合实际场景给出选择建议：

1. 核心维度对比

对比维度	Agent Skill	MCP（Model Context Protocol）
核心定义	AI Agent 的功能单元抽象，代表具体能力（如查天气、写报告），封装提示词 + 逻辑 + 工具	大模型与外部工具 / 服务的标准化通信协议，是跨平台的通用接口规范
技术层级	应用层（Application Layer）	协议层（Protocol Layer）
提出方与定位	Anthropic2025 年确立的开放标准，Agent 能力的封装单元，框架内核心概念	Modular2024 年开源（Anthropic 深度支持），跨厂商的通信标准，被称为 AI 领域的「USB-C 接口」
作用范围	可跨框架使用，核心是实现具体业务功能	跨框架、跨模型，解决大模型与外部工具的互操作性问题
部署方式	集成在 AI Agent 应用中，本地文件系统架构	独立 MCP Server 部署，基于 JSON-RPC 2.0 通信
核心类比	带 USB 接口的「打印机」（具体功能设备）	USB「接口标准」/ 高速公路（通用通道）

2. 核心关系：MCP 是 Skill 的「最佳底层搭档」

二者并非二选一，而是协同工作的关系：Agent Skill 解决「做什么」的问题，MCP 解决「怎么做」的问题，MCP 可以作为 Agent Skill 的底层实现，让 Skill 的能力更通用、更灵活。

例如构建一个「股票分析 Skill」，Skill 定义了「PE 比率 > 50 时需做高估值风险提示」的业务逻辑，而底层的股票实时数据，并非由 Skill 直接获取，而是通过 MCP 协议调用Yahoo Finance MCP Server得到，这样既保证了 Skill 的业务逻辑纯粹性，又借助 MCP 实现了跨模型的数据获取，让 Skill 能在 Claude、ChatGPT、Gemini 等任意大模型中使用。

3. 实际应用：该选谁？

若需求是实现具体的业务功能，比如让 AI 代理完成会议总结、客户接待、数据处理，直接开发 / 使用 Agent Skill 即可；
若需求是让多个大模型 / 框架共用同一个外部工具，比如让 Ollama、DeepSeek、Claude 都能调用同一个日历工具、数据库，优先使用 MCP；
若构建企业级 AI Agent 平台，需要支持第三方工具接入、跨模型协同，必然是「Agent Skill + MCP」组合，Skill 封装业务能力，MCP 实现标准化对接。

2.3.5 学习感悟与技术展望

1. 核心学习收获

本次学习让我彻底摆脱了「大模型开发 = 打磨 Prompt」的固有认知，认识到 Agent Skill 的出现是 AI 开发的重要里程碑：它将大模型应用开发从「零散的提示词工程」升级为「标准化的技能工程」，让 AI 代理的能力可封装、可复用、可管理，普通开发者也能快速构建出复杂的 AI 业务流，真正实现「一人抵一个开发团队」的效果。

而渐进式披露机制的设计思路，更是让我感受到大模型应用开发的核心逻辑 ------极致利用上下文窗口，让 AI 代理「轻装上阵」，这一思路不仅适用于 Agent Skill，也适用于所有大模型 Agent 的开发。

2. 技术发展展望

Agent Skill 作为 2026 年最火的 AI 技术之一，其发展趋势非常明确：

标准化程度持续提升：随着 Anthropic 等厂商的推动，Agent Skill 将成为大模型 Agent 开发的通用标准，各类国产大模型也将逐步完成适配，视频中提出的「国产模型能用 Skills 吗」的问题，答案必然是「全面支持」；
与 MCP 深度融合：未来的 Skill 类抽象，底层将普遍采用 MCP 协议，实现「一次编写，到处调用」，让 AI 能力的跨平台复用成为常态；
技能库生态化：无论是开源社区还是企业，都会构建专属的 Skill Library，成为 AI 时代的核心技术资产，像视频中提到的「10 个神级 Agent Skills」将成为常态，开发者可直接复用现成 Skill，大幅降低开发成本；
多 Agent 协同：基于 Agent Skill，将实现更高效的多 Agent 协同，比如用 Kimi K2.5 控制 100 个 Agent，每个 Agent 挂载专属 Skill，分工协作完成超复杂任务，真正实现「AI 大军」的落地。