从 LLM 到 Agent Skill:AI 核心概念完整解析

LLM(大语言模型)

基本概念

LLM (Large Language Model)即大语言模型,是当前所有 AI 技术的核心。目前主流的大模型都基于 Transformer 架构训练而成。

发展历程

  • 2017年:Google 团队提出 Transformer 架构,对应论文《Attention Is All You Need》
  • 2022年底 :OpenAI 发布 GPT-3.5,首个达到可用级别的大模型
  • 2023年3月GPT-4 发布,将 AI 能力天花板提升到新高度
  • 现状:AI 赛道不再是 OpenAI 独角戏,Claude、Gemini 等优秀产品同台竞技

工作原理

大模型本质上是一个文字接龙游戏

  1. 接收用户问题(如"马克的视频怎么样?")
  2. 经过内部运算,预测下一个概率最高的词(如"特别")
  3. 将刚输出的词追加到输入后面,继续预测下一个词(如"的")
  4. 重复此过程直到输出结束标识符
  5. 最终得到完整回答:"特别的棒"

Token(词元)

Token 处理流程

大模型无法直接处理文字,需要通过 Tokenizer 进行编码和解码:

编码过程(文字→数字)
  1. 切分:将用户输入拆分成最小片段(Token)
  2. 映射:每个 Token 对应一个数字(Token ID)
解码过程(数字→文字)
  • 将模型输出的 Token ID 转换回文字

Token 与词的关系

Token 和词不是一对一关系

  • 平均而言:1 个 Token ≈ 0.75 个英文单词 或 1.5-2 个汉字
  • 示例:
    • "马克的技术工作坊" → 5 个 Token(工作坊被拆成"工作"+"坊")
    • "程序员" → 2 个 Token("程序"+"员")
    • "helpful" → 2 个 Token("help"+"ful")

Token 数量估算

  • 40万 Token ≈ 60-80万汉字 或 30万英文单词
  • 100万 Token ≈ 150万汉字(可装下整部《哈利波特》)

Context(上下文)

定义

Context 是大模型每次处理任务时接收到的信息总和,可视为大模型的临时记忆体

Context 内容构成

  • 用户问题
  • 对话历史
  • 系统提示词(System Prompt)
  • 工具列表
  • 模型正在输出的 Token

记忆机制

大模型本身没有记忆能力,每次对话时系统会自动将完整对话历史打包发送给模型,这样模型才能"记住"之前的内容。

Context Window(上下文窗口)

定义

Context Window 表示 Context 能容纳的最大 Token 数量。

主流模型的 Context Window

  • GPT-4o:128万 Token
  • Claude 3.5 Sonnet:100万 Token
  • Gemini 1.5 Pro:100万 Token

实际应用场景

当需要处理超大文档时,可使用 RAG(Retrieval-Augmented Generation)技术:

  • 从文档中提取与用户问题最匹配的片段
  • 只将相关片段发送给模型
  • 避免 Context Window 限制,降低成本

Prompt(提示词)

基本概念

Prompt 是大模型接收的具体问题或指令,如"帮我写一首诗"。

优质 Prompt 特征

  • 清晰:明确表达需求
  • 具体:提供详细要求
  • 明确:避免模糊表述

示例对比:

  • ❌ 模糊:「帮我写一首诗」
  • ✅ 清晰:「请帮我写一首五言绝句,主题是秋天的落叶,风格要悲凉一点」

Prompt Engineering

提示词工程曾是热门领域,但随着大模型能力提升,重要性已显著下降。

User Prompt vs System Prompt

User Prompt(用户提示词)

  • 用户直接输入的问题或任务
  • 描述具体要处理的任务

System Prompt(系统提示词)

  • 开发者在后台配置
  • 定义模型的人设和行为规则
  • 用户不可见但持续影响模型行为

实际应用示例

数学辅导机器人场景

System Prompt(后台配置):

复制代码
你是一个耐心的数学老师,当学生问你数学问题时,不要直接给出答案,
而是要一步一步引导学生思考,帮助他们理解解题思路。

User Prompt(学生输入):

复制代码
3加5等于几?

模型回答

复制代码
我们可以这样想,你手里有三个苹果,然后又拿了5个,
现在一共有多少个呢?你可以数一数看。

Tool(工具)

大模型的局限性

大模型无法感知外界环境,如无法获取实时天气、股价等信息。

Tool 的本质

Tool 本质上是一个函数,接收输入参数,返回处理结果。

Tool 调用完整流程

以天气查询为例,涉及四个角色:

  1. 用户:提出问题
  2. 平台:负责信息传递的代码程序
  3. 大模型:分析问题并生成工具调用指令
  4. 天气查询工具:执行具体查询任务
详细流程
  1. 用户问题发送给平台

  2. 平台转发问题+可用工具列表给大模型

  3. 大模型分析后生成工具调用指令:

    json 复制代码
    {
      "tool_name": "weather_query",
      "parameters": {
        "city": "上海",
        "date": "today"
      }
    }
  4. 平台根据指令调用实际工具

  5. 工具返回结果给平台

  6. 平台将结果转发给大模型

  7. 大模型整理成人话返回给用户

角色职责划分

  • 大模型:选择工具 + 归纳总结
  • 工具:执行具体功能
  • 平台:串联整个流程

重要:大模型无法直接调用工具,只能输出调用指令,真正的调用由平台完成。

MCP(模型上下文协议)

问题背景

不同平台的工具接入标准各异:

  • ChatGPT:按 OpenAI 规范
  • Claude:按 Anthropic 规范
  • Gemini:按 Google 规范

同一工具需要写三套接入代码。

MCP 解决方案

MCP(Model Context Protocol)提供统一的工具接入标准:

  • 工具开发者只需按 MCP 规范开发一次
  • 可在所有支持 MCP 的平台使用
  • 类似手机统一使用 Type-C 接口

MCP 的作用

将工具接入标准化,大幅降低开发成本,提高工具复用性。

Agent(智能代理)

复杂任务场景

单次工具调用无法解决复杂问题,如:

复制代码
今天我这里的天气怎么样?如果下雨的话,帮我查一下附近有没有卖雨伞的店。

需要调用多个工具:

  1. 定位工具:获取用户经纬度
  2. 天气工具:根据位置查询天气
  3. 店铺工具:搜索附近商店

Agent 工作流程

  1. 分析任务,确定需要位置信息
  2. 调用定位工具获取经纬度
  3. 调用天气工具查询天气状况
  4. 发现下雨,调用店铺工具搜索雨伞店
  5. 综合信息给出最终答案

Agent 特征

  • 自主规划:能分解复杂任务
  • 自主调用工具:根据需要选择合适工具
  • 持续工作:直到完成用户任务

主流 Agent 产品

  • Claude Code
  • Cursor
  • GitHub Copilot

经典构建模式

  • ReAct:推理-行动循环
  • Plan and Execute:先规划再执行

Agent Skill(智能代理技能)

使用场景痛点

Agent 虽然能自主工作,但不了解用户的个人习惯和格式要求。

出门助手示例

  • 用户希望根据天气提醒带物品
  • 有特定的判断规则(下雨带伞、光照强戴帽子等)
  • 需要特定的输出格式

Agent Skill 解决方案

Agent Skill 是预先写好的说明文档,告诉 Agent 如何按用户要求工作。

Agent Skill 结构

元数据层(文档封面)
yaml 复制代码
name: go_out_checklist
description: 根据天气情况生成出门物品清单
指令层(具体说明)

包含以下部分:

  • 目标:要完成的任务
  • 执行步骤:具体操作流程
  • 判断规则:决策逻辑
  • 输出格式:结果呈现方式
  • 示例:预期的输入输出样本

创建和使用流程

1. 创建 Agent Skill 文件

在用户目录下的 .claude/skills/ 文件夹中:

  1. 创建与技能名称相同的文件夹(如 go_out_checklist
  2. 在文件夹内创建 SKILL.md 文件(文件名固定)
  3. 将技能内容写入文件
2. 系统加载机制
  • 启动时加载所有技能的元数据
  • 当用户问题匹配时,才读取完整指令层
  • 采用渐进式披露,节省 Token
3. 实际运行

用户提问后,系统会:

  1. 识别相关的 Agent Skill
  2. 读取完整技能内容
  3. 按照技能要求执行任务
  4. 按指定格式输出结果

Agent Skill 高级功能

  • 运行代码:执行程序逻辑
  • 引用资源:调用外部文件
  • 渐进式披露:按需加载内容,优化 Token 使用

技术体系总结

核心架构关系

复制代码
LLM (核心) 
├── Token (处理单元)
├── Context (信息容器)
│   └── Context Window (容量限制)
├── Prompt (输入指令)
│   ├── User Prompt (用户输入)
│   └── System Prompt (系统规则)
├── Tool (外部能力)
│   └── MCP (统一标准)
├── Agent (自主规划)
└── Agent Skill (行为规范)

技术演进逻辑

  1. LLM 提供基础能力
  2. Token 实现文本处理
  3. Context 提供记忆机制
  4. Prompt 实现人机交互
  5. Tool 扩展外部能力
  6. MCP 标准化工具接入
  7. Agent 实现自主工作
  8. Agent Skill 定制化行为

理解这套完整体系后,就能看懂 AI 圈的各种新产品和技术,无论是 Claude Code、Cursor 还是其他 AI 应用,本质上都在这个框架下运作。

参考来源:从 LLM 到 Agent Skill,一期视频带你打通底层逻辑!

相关推荐
TechubNews2 小时前
從25Q4及全年財報數字看燦谷(Cango Inc)戰略轉向AI
网络·人工智能·web3·区块链
KIKIiiiiiiii2 小时前
微信自动化机器人开发
java·开发语言·人工智能·python·微信·自动化
Apache IoTDB2 小时前
Apache IoTDB 相关创新成果亮相日内瓦发明展,荣获评审团特别嘉许金奖
人工智能·iotdb
x-cmd2 小时前
RTK - CLI 代理工具,减少 LLM 80% token 消耗 | X-CMD 推荐
人工智能·ai·github·agent·token·rtk·x-cmd
AI探知-阿薇2 小时前
cc-switch 深度解析:终端 AI 编程助手的统一控制平面是怎么炼成的?
人工智能·平面·ai编程
高洁012 小时前
数字孪生底层逻辑和技术
人工智能·深度学习·信息可视化·数据挖掘·transformer
L-影2 小时前
下篇:从静态到动态,Embedding的进化之路
人工智能·ai·embedding
不懒不懒2 小时前
【矿物数据缺失值填充:六种方法的实现与对比】
人工智能·机器学习
Mr.Cheng.2 小时前
A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive
人工智能