CLAUDE 综合使用教程

1. 学习的来源

请各位可以关注这个博主,进行学习:https://space.bilibili.com/1815948385?spm_id_from=333.788.upinfo.head.click

2. CLAUDE 的学习内容

2.1 AGENT 的学习

2.1.1 Agent 的核心定义与核心价值

  1. 定义 :将大模型与各类外部工具组装结合,形成的能自主感知和改变外界环境的智能程序,区别于单纯的大模型,Agent 常以机器人图标表示,拥有类似 "感官和四肢" 的工具能力,而大模型仅为 "大脑"。
  2. 核心价值 :赋予传统大模型行动力和感知力,使其能自主与外部世界交互,自动化完成复杂任务,彻底突破大模型 "只能回答、无法行动" 的应用边界,是大模型从 "被动响应" 走向 "主动执行" 的关键技术。
  3. 与传统大模型的对比:传统大模型(如 GPT-4、DeepSeek)擅长逻辑推理和问题解答,但存在两大核心局限 ------ 无法感知外界环境(需用户主动提供数据 / 代码,无法自行查找)、无法改变外界环境(仅能生成代码,无法自行写入文件 / 运行程序);Agent 通过集成工具解决了这两大问题,实现全流程自动化。

2.1.2 Agent 的核心工具与常见类型

  1. 核心工具:作为 Agent 的 "感官和四肢",核心为能实现环境交互的工具,包括读取文件内容工具、查看文件列表工具、运行终端命令工具等,Agent 的能力边界由其可调用的工具列表决定。
  2. 常见类型
    • 编程类 Agent:如 Cursor,用户提交编程任务后,Agent 可自动调用工具完成代码编写、运行等全流程,用户仅需简单确认;
    • 深度搜索 / 信息整理类 Agent:如 MUS,可自动生成执行计划、搜索网页信息、整理分析结果并形成报告,无需用户介入。

2.1.3 Agent 的核心运行模式 ------ReAct 模式

ReAct 模式是目前 Agent最广泛使用的运行模式,全称为 Reasoning and Acting(思考与行动),由 2022 年 10 月的论文提出,至今仍为行业主流。

  1. 核心运行流程 :以思考(Thought)- 行动(Action)- 观察(Observation) 为循环核心,直至完成任务并输出最终答案(Final Answer),具体步骤为:用户提交任务→Agent 思考是否需要调用工具→调用对应工具执行行动→观察工具执行结果→重复循环,直至信息足够→输出最终答案。
  2. 实现核心:系统提示词(System Prompt) :ReAct 模式的运作并非依赖模型的原生训练,而是通过系统提示词引导模型行为,该提示词会与用户问题一同发送给大模型,核心作用为设定模型的角色、运行规则、环境信息等。
  3. 系统提示词的核心构成 :一份标准的 ReAct 模式系统提示词大致包含五部分,核心为职责描述 (明确模型需按思考 - 行动 - 观察循环执行)、示例演示 (展示典型的 ReAct 流程案例)、可用工具列表(明确模型可调用的工具及使用方式),通过标准化的提示词规范,让大模型严格遵循 ReAct 流程运行。

2.1.4 Agent 的核心构建逻辑

视频围绕 "从零打造简化版 Claude Code",传递了 Agent 的核心构建逻辑:以大模型为核心大脑,搭配适配的外部工具集,通过标准化的运行模式(如 ReAct)和系统提示词进行行为引导,实现感知 - 思考 - 行动的自动化循环。同时提及 Plan-And-Execute 模式,作为 ReAct 之外的另一核心构建模式,为 Agent 的构建提供更多思路。

2.1.5 总结

  1. 通俗化拆解:通过 "大脑(大模型)- 感官和四肢(工具)" 的比喻,将抽象的 Agent 概念具象化,清晰解释了 Agent 与传统大模型的本质区别,降低技术理解门槛;
  2. 理论 + 实操:不仅讲解 Agent 的概念、原理和运行模式,还通过打造简化版 Claude Code 的实操演示,让观众将理论落地,理解 Agent 的实际构建过程;
  3. 抓准核心重点:聚焦 ReAct 这一主流运行模式,深入拆解其流程和实现核心(系统提示词),为观众提供了可落地的 Agent 构建思路;
  4. 明确技术价值:清晰传递了 Agent 在大模型时代的核心意义,让观众理解为何 Agent 成为技术社区的热门焦点,以及其在自动化任务、扩展大模型应用边界的重要作用。

2.2 Claude 的描述

该部分是 Cloud Code 实战全攻略,详细涵盖环境搭建与基础交互(安装、登录、三种模式切换)、复杂任务处理与终端控制(代办软件开发、架构重构、文件操作、后台任务管理)、高级功能扩展与定制(MCP 对接 Figma、上下文压缩与清空、cloud.md 配置、Hook 自动化、Agent Skill、Sub Agent、Plugin 安装使用)等核心内容,还介绍了模式切换、回滚、终端命令执行等关键操作,帮助用户从入门到落地生产环境,且同类编程 Agent 可通用。

2.2.1 环境搭建与基础交互

  1. 安装与登录

    • 安装:访问 Cloud Code 官网,复制安装命令,在终端粘贴执行即可完成安装。

    • 登录方式:提供 2 种标准接入方式,如下表所示: 表格

      登录方式 适用人群 核心特点
      订阅制 Cloud Pro/Max 会员 直接选择,网页授权即可
      API key 非会员用户 按 token 用量计费,用多少花多少
    • 兼容扩展:支持 GLM、MiniMax 等国产模型,通过设置环境变量即可适配。

  2. 核心模式切换

    • 切换快捷键:shift+tab,循环切换 3 种模式。

    • 模式详情: 表格

      模式名称 标识特征 核心功能 适用场景
      默认模式 底部显示 "? For shortcuts" 创建 / 修改文件前必询问用户 需谨慎操作的场景
      自动模式 底部显示 "accept edits on" 本次会话自动同意所有文件操作 无需反复确认的演示 / 开发
      规划模式 底部显示 "plan mode" 只讨论方案,不执行任何操作 复杂项目的方案构思
  3. 辅助操作

    • 终端命令执行:输入!+终端命令,即可在 Cloud Code 内运行终端功能(如!open index.html打开文件)。
    • 编辑器切换:按CTRL+G,可打开 VS Code 标签页编辑内容,解决终端输入框操作不便的问题(需提前安装 VS Code)。

2.2.2 复杂任务处理与终端控制

  1. 项目开发与重构
    • 初始开发:向 Cloud Code 提出需求(如 "用 HTML 做代办软件"),其自动生成 index.html 文件,需选择文件操作授权方式(3 种选项:单次授权 / 全量授权 / 拒绝)。
    • 架构重构:在规划模式下提出需求(重构为 React+TypeScript+Vite),按shift+回车换行补充要求(保留功能、UI 一致),确认方案后执行重构。
  2. 后台任务管理
    • 任务阻塞:启动服务器等任务(如npm run dev)会阻塞 Cloud Code,无法处理新请求。
    • 后台挂起:按CTRL+B可将当前任务放置后台,释放 Cloud Code 处理新请求。
    • 任务查看与关闭:输入/tasks查看后台任务,按K关闭指定任务,按ESC返回主界面。
  3. 功能迭代与回滚
    • 功能新增:直接输入需求(如 "右上角增加中英切换功能"),Cloud Code 自动修改文件,实时生效。
    • 回滚操作:支持 2 种方式,一是输入/rewind命令,二是双击ESC进入回滚页面,选择回滚点后,可选择 4 种回滚范围(代码 + 会话 / 仅会话 / 仅代码 / 放弃回滚)。
    • 回滚限制:仅能回滚 Cloud Code 自身写入的文件,终端命令(如mkdirnpm install)生成的文件需手动删除。

2.2.3 高级功能扩展与定制

  1. MCP(模型沟通渠道)
    • 核心用途:对接外部工具(如 Figma),精准还原设计稿(获取截图、间距、字体等详细信息)。
    • 操作步骤:安装 MCP Server→/resume恢复会话(或cloud -c自动恢复上一次会话)→/mcp授权→粘贴 Figma 设计稿链接→Cloud Code 调用工具生成代码。
  2. 上下文管理
    • 压缩:输入/compact命令,可选择性追加压缩策略(如保留用户需求),压缩后通过CTRL+O查看结果,减少 token 消耗、提升性能。
    • 清空:输入/clear命令,直接清空所有上下文内容,适用于新任务与历史上下文无关的场景。
  3. cloud.md 配置文件
    • 生成:输入/init命令,Cloud Code 自动生成项目级 / 用户级 cloud.md 文件。
    • 自定义:支持修改内容(如转为中文、添加注意事项),重启 Cloud Code 后生效,确保每次启动都能读取预设信息(如项目需求、注意事项)。
    • 快速编辑:输入/memory,可直接打开对应级别的 cloud.md 文件,无需手动查找。
  4. Hook 功能(自动化逻辑)
    • 核心作用:在工具执行前后触发自定义逻辑(如代码格式化)。
    • 配置步骤:/hooks→选择执行时机(如 post tool use)→指定触发工具(write/edit)→输入逻辑命令→选择保存级别(3 种:本地项目级 / 项目级 / 用户级)。
    • 示例效果:创建单行 HTML 文件后,Hook 自动调用 prettier 格式化代码,生成规范格式文件。
  5. Agent Skill(动态 Prompt)
    • 用途:解决重复需求(如固定格式日报),无需反复输入要求。
    • 创建步骤:在~/.cloud/skills目录下新建文件夹→创建skill.md(包含名称、描述、格式要求)→重启 Cloud Code。
    • 调用方式:自动调用(Cloud Code 识别需求匹配)或手动调用(/技能名称+需求)。
  6. Sub Agent(独立代理)
    • 核心特点:拥有独立上下文、工具、Skill,仅返回最终结果,不占用主会话上下文。

    • 与 Agent Skill 的区别: 表格

      对比维度 Agent Skill Sub Agent
      上下文 继承共享主会话上下文 独立上下文,不回传中间过程
      适用场景 与上下文关联大、影响小的任务(如写日报) 与上下文关联小、影响大的任务(如代码审核)
      调用方式 自动 / 手动 主 Agent 调用或手动触发
    • 创建步骤:/agent→选择级别(项目 / 用户)→选择创建方式(Cloud Code 初始化 / 手动)→描述功能→配置工具 / 模型 / 颜色→编辑描述文件。

  7. Plugin(插件)
    • 本质:打包 Skill、Sub Agent、Hook 等能力的安装包(类似 DMG/EXE)。
    • 操作步骤:/plugin→选择发现插件(discover)→选择插件→选择安装范围(3 种:当前用户 / 当前项目 / 当前用户 + 项目)→重启生效。
    • 示例:安装front and design插件(含 Agent Skill),可生成更美观、符合现代审美的前端界面。
    • 扩展:支持将自定义配置(Skill/Sub Agent 等)打包为插件,分享给团队 / 社区。

2.2.4 关键注意事项

  1. 危险参数:--dangerously-skip-permissions,启动时添加该参数可跳过所有权限检测,终端命令自动执行,但存在安全风险(拥有用户级终端权限)。
  2. 换行操作:在规划模式或输入长需求时,按shift+回车换行,避免回车直接提交。
  3. 版本要求:shift+回车换行功能需使用新版本 Cloud Code,旧版本需升级。

2.2.5 关键问题

问题 1:Cloud Code 的 3 种模式具体区别是什么,如何切换?
  • 答案:3 种模式通过shift+tab循环切换,核心区别如下:

    表格

    模式 标识 核心行为 适用场景
    默认模式 底部显示 "? For shortcuts" 创建 / 修改文件前必询问用户 需谨慎操作、避免误改的场景
    自动模式 底部显示 "accept edits on" 本次会话内所有文件操作自动同意 无需反复确认的高效开发 / 演示场景
    规划模式 底部显示 "plan mode" 仅讨论方案,不执行任何文件操作 复杂项目的方案构思、需求细化场景
问题 2:Cloud Code 中 Agent Skill 与 Sub Agent 的核心差异是什么,分别适用于什么场景?
  • 答案:核心差异在于上下文处理方式 ,适用场景因此不同:
    • Agent Skill:继承并共享主会话上下文,执行过程的日志、思考均计入主上下文,适用于与上下文关联紧密、对主上下文影响小的任务(如根据当日开发过程写固定格式日报)。
    • Sub Agent:拥有独立上下文,中间过程不回传主会话,仅返回最终结果,适用于与上下文关联弱、对主上下文影响大的任务(如几万行代码的审核,避免主上下文被塞满导致性能下降)。
问题 3:如何利用 Cloud Code 精准还原 Figma 设计稿,关键步骤有哪些?
  • 答案:通过 MCP 功能对接 Figma 实现精准还原,关键步骤共 5 步:
    1. 安装 Figma MCP Server:执行官方提供的安装命令,完成后退出 Cloud Code。
    2. 恢复会话:通过/resume选择目标会话,或用cloud -c自动恢复上一次会话。
    3. 授权 MCP 工具:输入/mcp→选择 Figma MCP→选择authenticate→网页授权通过。
    4. 提交需求与链接:输入 "修改页面与 Figma 稿件一致",粘贴 Figma 设计稿链接(通过 "copy link to selection" 复制)并提交。
    5. 同意工具调用:Cloud Code 会请求调用get design context(获取设计上下文)和get screenshot(获取截图)工具,依次同意后,即可自动生成匹配设计稿的代码。

2.3 什么是SKILL

2.3.1 直击核心:Agent Skill 到底是什么?

如果把大模型比作一个拥有超高通用智商的「全能人才」,那么 Agent Skill 就是为这个人才量身定制的标准化岗位 SOP(标准作业程序),这是对其本质最生动的诠释。从技术定义来看,Agent Skill 是 Anthropic 于 2025 年确立的开放式 AI 代理构建标准,它不再是传统的一段提示词文本,而是将复杂的 Prompt 工程、外部知识库、执行逻辑封装为一套基于文件系统的开放标准格式,是扩展 AI Agent 能力的轻量级、模块化功能单元。

在大模型应用开发的早期,开发者只能通过反复打磨 Prompt 来引导模型完成任务,但随着业务逻辑越来越复杂,单纯的 Prompt 暴露出诸多致命问题:上下文窗口被无关信息挤占导致模型注意力分散,长文本指令难以复用、维护成本极高,而 Agent Skill 的出现,标志着 Agent 开发正式进入了标准化、模块化的新阶段。它为大模型补全了「程序化记忆」的拼图,让 AI 代理既能保留大模型的通用推理能力,又能拥有传统软件般严谨的执行逻辑,是构建复杂业务 AI 工作流的核心基石。

2.3.2 底层精髓:渐进式披露机制,极致保护上下文窗口

Agent Skill 的核心竞争力,在于其背后独创的渐进式披露(Progressive Disclosure)机制------ 这是一套为大模型上下文窗口量身打造的「分级加载策略」,将上下文视为稀缺的公共资源,坚决杜绝无关信息的侵占,这也是它能大幅降低 Token 消耗、提升任务执行效率的关键。

这套机制并非简单的按需加载,而是设计了四级严密的加载层级,不同层级的内容在不同时机触发加载,Token 消耗权重逐级区分,让 AI 代理在闲置时极度轻量,处理复杂任务时又能瞬间调用全套能力,具体层级如下:

  1. L1 元数据层(Metadata):常驻加载,仅包含 Skill 的名称、描述、版本号,Token 消耗极低(<1%)。作用是让 AI 代理知道「自己拥有这个能力」,但不知道「具体该怎么做」,哪怕挂载几百个 Skill,也仅占用少量 Token,毫无负担。
  2. L2 指令层(Instruction) :命中后加载,核心是 Skill 文件夹下的SKILL.md正文规则,Token 消耗中等(5-10%)。只有当用户的请求与 L1 的描述产生语义匹配时,这部分详细的业务处理逻辑和 SOP 才会被加载进上下文,任务结束后还可根据需求释放,动态且高效。
  3. L3 参考层(Reference):条件触发加载,包含外部文档、行业手册、专业规范等,Token 消耗较高且可变。这部分内容不会随 L2 自动加载,只有 Agent 执行到具体步骤需要专业知识支撑时,才会按需读取,用完即弃。
  4. L4 脚本层(Script):仅执行加载,包含 Python/Shell 等可执行脚本,Token 消耗为 0(模型不读取代码,仅执行)。用于实现物理世界的「副作用」,比如数据处理、文件生成,且不同于传统工具调用需要服务端 API 支持,Skill 的脚本是客户端本地执行,响应更快。

实测数据显示,这种机制在处理长链条业务流程时,能将上下文 Token 消耗降低 60%-80%,同时大幅提升长文本任务中的指令遵循准确率,在知识库应用中,还能让首字延迟降低 45%、Token 成本节省 92%,效果堪称惊艳。

2.3.3 实操指南:Agent Skill 的使用核心要点

视频中围绕 Agent Skill 的实际应用,给出了清晰的使用逻辑和实操原则,核心是 **「标准化文件结构 + 轻量化开发 + 模块化复用」**,脱离了传统 Prompt 的零散化开发模式,让 Skill 能被版本管理、团队共享,成为企业的核心技术资产。

1. 核心文件结构

Agent Skill 基于本地文件系统构建,核心结构围绕SKILL.md展开,配套元数据配置文件、参考资料文件夹、脚本文件夹,所有文件层级保持一致,避免嵌套引用,让模型能快速识别和读取。

2. 开发与使用的关键原则

  • 精简核心:SKILL.md的内容保持在 500 行以内,简洁清晰,使用统一术语,避免冗余信息;
  • 分离存储:将详细的参考资料、专业知识移至单独的文件,核心文件中仅展示基本内容,通过链接指向高级内容;
  • 路径规范:文件路径统一使用正斜杠,即使在 Windows 系统中也不例外,保证跨平台兼容性;
  • 自由度适配:根据业务需求设计 Skill 的自由度,通用任务采用高自由度(仅文本指导),专业任务采用中等自由度(附带伪代码、示例模板),确保执行效果的同时保留一定灵活性。

3. 核心使用场景

Agent Skill 可封装任意具体的 AI 能力,比如「会议纪要生成」「客户投诉处理」「股票分析」「邮件发送」等,企业可根据自身业务,构建专属的 Skill Library(技能库),让 AI 代理快速适配不同岗位需求。例如构建meeting-auditor技能,可让 AI 同时实现会议总结、合规审计、自动归档三大功能,一站式解决会议管理需求。

2.3.4 易混辨析:Agent Skill 与 MCP 的区别与选择

视频中重点解答了开发者最困惑的问题 ------Agent Skill 与 MCP(Model Context Protocol)的区别,以及实际应用中该如何选择。二者并非对立关系,而是属于 AI Agent 架构中不同抽象层级的技术,一个是「功能包」,一个是「通用接口」,搭配使用能实现 1+1>2 的效果。

为了更清晰区分,我们从核心维度做直观对比,同时结合实际场景给出选择建议:

1. 核心维度对比

对比维度 Agent Skill MCP(Model Context Protocol)
核心定义 AI Agent 的功能单元抽象,代表具体能力(如查天气、写报告),封装提示词 + 逻辑 + 工具 大模型与外部工具 / 服务的标准化通信协议,是跨平台的通用接口规范
技术层级 应用层(Application Layer) 协议层(Protocol Layer)
提出方与定位 Anthropic2025 年确立的开放标准,Agent 能力的封装单元,框架内核心概念 Modular2024 年开源(Anthropic 深度支持),跨厂商的通信标准,被称为 AI 领域的「USB-C 接口」
作用范围 可跨框架使用,核心是实现具体业务功能 跨框架、跨模型,解决大模型与外部工具的互操作性问题
部署方式 集成在 AI Agent 应用中,本地文件系统架构 独立 MCP Server 部署,基于 JSON-RPC 2.0 通信
核心类比 带 USB 接口的「打印机」(具体功能设备) USB「接口标准」/ 高速公路(通用通道)

2. 核心关系:MCP 是 Skill 的「最佳底层搭档」

二者并非二选一,而是协同工作的关系:Agent Skill 解决「做什么」的问题,MCP 解决「怎么做」的问题,MCP 可以作为 Agent Skill 的底层实现,让 Skill 的能力更通用、更灵活。

例如构建一个「股票分析 Skill」,Skill 定义了「PE 比率 > 50 时需做高估值风险提示」的业务逻辑,而底层的股票实时数据,并非由 Skill 直接获取,而是通过 MCP 协议调用Yahoo Finance MCP Server得到,这样既保证了 Skill 的业务逻辑纯粹性,又借助 MCP 实现了跨模型的数据获取,让 Skill 能在 Claude、ChatGPT、Gemini 等任意大模型中使用。

3. 实际应用:该选谁?

  • 若需求是实现具体的业务功能,比如让 AI 代理完成会议总结、客户接待、数据处理,直接开发 / 使用 Agent Skill 即可;
  • 若需求是让多个大模型 / 框架共用同一个外部工具,比如让 Ollama、DeepSeek、Claude 都能调用同一个日历工具、数据库,优先使用 MCP;
  • 若构建企业级 AI Agent 平台,需要支持第三方工具接入、跨模型协同,必然是「Agent Skill + MCP」组合,Skill 封装业务能力,MCP 实现标准化对接。

2.3.5 学习感悟与技术展望

1. 核心学习收获

本次学习让我彻底摆脱了「大模型开发 = 打磨 Prompt」的固有认知,认识到 Agent Skill 的出现是 AI 开发的重要里程碑:它将大模型应用开发从「零散的提示词工程」升级为「标准化的技能工程」,让 AI 代理的能力可封装、可复用、可管理,普通开发者也能快速构建出复杂的 AI 业务流,真正实现「一人抵一个开发团队」的效果。

而渐进式披露机制的设计思路,更是让我感受到大模型应用开发的核心逻辑 ------极致利用上下文窗口,让 AI 代理「轻装上阵」,这一思路不仅适用于 Agent Skill,也适用于所有大模型 Agent 的开发。

2. 技术发展展望

Agent Skill 作为 2026 年最火的 AI 技术之一,其发展趋势非常明确:

  1. 标准化程度持续提升:随着 Anthropic 等厂商的推动,Agent Skill 将成为大模型 Agent 开发的通用标准,各类国产大模型也将逐步完成适配,视频中提出的「国产模型能用 Skills 吗」的问题,答案必然是「全面支持」;
  2. 与 MCP 深度融合:未来的 Skill 类抽象,底层将普遍采用 MCP 协议,实现「一次编写,到处调用」,让 AI 能力的跨平台复用成为常态;
  3. 技能库生态化:无论是开源社区还是企业,都会构建专属的 Skill Library,成为 AI 时代的核心技术资产,像视频中提到的「10 个神级 Agent Skills」将成为常态,开发者可直接复用现成 Skill,大幅降低开发成本;
  4. 多 Agent 协同:基于 Agent Skill,将实现更高效的多 Agent 协同,比如用 Kimi K2.5 控制 100 个 Agent,每个 Agent 挂载专属 Skill,分工协作完成超复杂任务,真正实现「AI 大军」的落地。
相关推荐
小刘的大模型笔记13 小时前
大模型微调参数设置 —— 从入门到精通的调参指南
人工智能·深度学习·机器学习
LaughingZhu14 小时前
Product Hunt 每日热榜 | 2026-02-10
人工智能·经验分享·深度学习·神经网络·产品运营
千里马也想飞14 小时前
公共管理新题解:信息化条件下文化治理类论文,如何用AI把“大空题目”做成“落地案例库”?(附三级提纲+指令包)
人工智能·深度学习·机器学习·论文笔记
技术传感器15 小时前
大模型从0到精通:对齐之心 —— 人类如何教会AI“好“与“坏“ | RLHF深度解析
人工智能·深度学习·神经网络·架构
Christo316 小时前
TSPL-2025《Centroid-Free K-Means With Balanced Clustering》
人工智能·算法·机器学习·数据挖掘·kmeans
Hcoco_me16 小时前
MobileNetV2训练+推理的完整逻辑
人工智能·深度学习·机器学习
明朝百晓生16 小时前
强化学习[chapter8] [page18]Policy Gradient
人工智能·算法·机器学习
Loo国昌18 小时前
AABB碰撞检测 + 分层Prompt:AI图形零重叠背后的6项关键技术
人工智能·后端·深度学习·自然语言处理·prompt
星川皆无恙18 小时前
豆瓣电影数据爬虫分析:基于 Python 的豆瓣电影数据可视化分析系统
大数据·爬虫·python·算法·机器学习·信息可视化·numpy
npupengsir19 小时前
RoPE相对位置编码
人工智能·算法·机器学习