LLM(大语言模型)
基本概念
LLM (Large Language Model)即大语言模型,是当前所有 AI 技术的核心。目前主流的大模型都基于 Transformer 架构训练而成。
发展历程
- 2017年:Google 团队提出 Transformer 架构,对应论文《Attention Is All You Need》
- 2022年底 :OpenAI 发布 GPT-3.5,首个达到可用级别的大模型
- 2023年3月 :GPT-4 发布,将 AI 能力天花板提升到新高度
- 现状:AI 赛道不再是 OpenAI 独角戏,Claude、Gemini 等优秀产品同台竞技
工作原理
大模型本质上是一个文字接龙游戏:
- 接收用户问题(如"马克的视频怎么样?")
- 经过内部运算,预测下一个概率最高的词(如"特别")
- 将刚输出的词追加到输入后面,继续预测下一个词(如"的")
- 重复此过程直到输出结束标识符
- 最终得到完整回答:"特别的棒"
Token(词元)
Token 处理流程
大模型无法直接处理文字,需要通过 Tokenizer 进行编码和解码:
编码过程(文字→数字)
- 切分:将用户输入拆分成最小片段(Token)
- 映射:每个 Token 对应一个数字(Token ID)
解码过程(数字→文字)
- 将模型输出的 Token ID 转换回文字
Token 与词的关系
Token 和词不是一对一关系:
- 平均而言:1 个 Token ≈ 0.75 个英文单词 或 1.5-2 个汉字
- 示例:
- "马克的技术工作坊" → 5 个 Token(工作坊被拆成"工作"+"坊")
- "程序员" → 2 个 Token("程序"+"员")
- "helpful" → 2 个 Token("help"+"ful")
Token 数量估算
- 40万 Token ≈ 60-80万汉字 或 30万英文单词
- 100万 Token ≈ 150万汉字(可装下整部《哈利波特》)
Context(上下文)
定义
Context 是大模型每次处理任务时接收到的信息总和,可视为大模型的临时记忆体。
Context 内容构成
- 用户问题
- 对话历史
- 系统提示词(System Prompt)
- 工具列表
- 模型正在输出的 Token
记忆机制
大模型本身没有记忆能力,每次对话时系统会自动将完整对话历史打包发送给模型,这样模型才能"记住"之前的内容。
Context Window(上下文窗口)
定义
Context Window 表示 Context 能容纳的最大 Token 数量。
主流模型的 Context Window
- GPT-4o:128万 Token
- Claude 3.5 Sonnet:100万 Token
- Gemini 1.5 Pro:100万 Token
实际应用场景
当需要处理超大文档时,可使用 RAG(Retrieval-Augmented Generation)技术:
- 从文档中提取与用户问题最匹配的片段
- 只将相关片段发送给模型
- 避免 Context Window 限制,降低成本
Prompt(提示词)
基本概念
Prompt 是大模型接收的具体问题或指令,如"帮我写一首诗"。
优质 Prompt 特征
- 清晰:明确表达需求
- 具体:提供详细要求
- 明确:避免模糊表述
示例对比:
- ❌ 模糊:「帮我写一首诗」
- ✅ 清晰:「请帮我写一首五言绝句,主题是秋天的落叶,风格要悲凉一点」
Prompt Engineering
提示词工程曾是热门领域,但随着大模型能力提升,重要性已显著下降。
User Prompt vs System Prompt
User Prompt(用户提示词)
- 用户直接输入的问题或任务
- 描述具体要处理的任务
System Prompt(系统提示词)
- 开发者在后台配置
- 定义模型的人设和行为规则
- 用户不可见但持续影响模型行为
实际应用示例
数学辅导机器人场景:
System Prompt(后台配置):
你是一个耐心的数学老师,当学生问你数学问题时,不要直接给出答案,
而是要一步一步引导学生思考,帮助他们理解解题思路。
User Prompt(学生输入):
3加5等于几?
模型回答:
我们可以这样想,你手里有三个苹果,然后又拿了5个,
现在一共有多少个呢?你可以数一数看。
Tool(工具)
大模型的局限性
大模型无法感知外界环境,如无法获取实时天气、股价等信息。
Tool 的本质
Tool 本质上是一个函数,接收输入参数,返回处理结果。
Tool 调用完整流程
以天气查询为例,涉及四个角色:
- 用户:提出问题
- 平台:负责信息传递的代码程序
- 大模型:分析问题并生成工具调用指令
- 天气查询工具:执行具体查询任务
详细流程
-
用户问题发送给平台
-
平台转发问题+可用工具列表给大模型
-
大模型分析后生成工具调用指令:
json{ "tool_name": "weather_query", "parameters": { "city": "上海", "date": "today" } } -
平台根据指令调用实际工具
-
工具返回结果给平台
-
平台将结果转发给大模型
-
大模型整理成人话返回给用户
角色职责划分
- 大模型:选择工具 + 归纳总结
- 工具:执行具体功能
- 平台:串联整个流程
重要:大模型无法直接调用工具,只能输出调用指令,真正的调用由平台完成。
MCP(模型上下文协议)
问题背景
不同平台的工具接入标准各异:
- ChatGPT:按 OpenAI 规范
- Claude:按 Anthropic 规范
- Gemini:按 Google 规范
同一工具需要写三套接入代码。
MCP 解决方案
MCP(Model Context Protocol)提供统一的工具接入标准:
- 工具开发者只需按 MCP 规范开发一次
- 可在所有支持 MCP 的平台使用
- 类似手机统一使用 Type-C 接口
MCP 的作用
将工具接入标准化,大幅降低开发成本,提高工具复用性。
Agent(智能代理)
复杂任务场景
单次工具调用无法解决复杂问题,如:
今天我这里的天气怎么样?如果下雨的话,帮我查一下附近有没有卖雨伞的店。
需要调用多个工具:
- 定位工具:获取用户经纬度
- 天气工具:根据位置查询天气
- 店铺工具:搜索附近商店
Agent 工作流程
- 分析任务,确定需要位置信息
- 调用定位工具获取经纬度
- 调用天气工具查询天气状况
- 发现下雨,调用店铺工具搜索雨伞店
- 综合信息给出最终答案
Agent 特征
- 自主规划:能分解复杂任务
- 自主调用工具:根据需要选择合适工具
- 持续工作:直到完成用户任务
主流 Agent 产品
- Claude Code
- Cursor
- GitHub Copilot
经典构建模式
- ReAct:推理-行动循环
- Plan and Execute:先规划再执行
Agent Skill(智能代理技能)
使用场景痛点
Agent 虽然能自主工作,但不了解用户的个人习惯和格式要求。
出门助手示例:
- 用户希望根据天气提醒带物品
- 有特定的判断规则(下雨带伞、光照强戴帽子等)
- 需要特定的输出格式
Agent Skill 解决方案
Agent Skill 是预先写好的说明文档,告诉 Agent 如何按用户要求工作。
Agent Skill 结构
元数据层(文档封面)
yaml
name: go_out_checklist
description: 根据天气情况生成出门物品清单
指令层(具体说明)
包含以下部分:
- 目标:要完成的任务
- 执行步骤:具体操作流程
- 判断规则:决策逻辑
- 输出格式:结果呈现方式
- 示例:预期的输入输出样本
创建和使用流程
1. 创建 Agent Skill 文件
在用户目录下的 .claude/skills/ 文件夹中:
- 创建与技能名称相同的文件夹(如
go_out_checklist) - 在文件夹内创建
SKILL.md文件(文件名固定) - 将技能内容写入文件
2. 系统加载机制
- 启动时加载所有技能的元数据
- 当用户问题匹配时,才读取完整指令层
- 采用渐进式披露,节省 Token
3. 实际运行
用户提问后,系统会:
- 识别相关的 Agent Skill
- 读取完整技能内容
- 按照技能要求执行任务
- 按指定格式输出结果
Agent Skill 高级功能
- 运行代码:执行程序逻辑
- 引用资源:调用外部文件
- 渐进式披露:按需加载内容,优化 Token 使用
技术体系总结
核心架构关系
LLM (核心)
├── Token (处理单元)
├── Context (信息容器)
│ └── Context Window (容量限制)
├── Prompt (输入指令)
│ ├── User Prompt (用户输入)
│ └── System Prompt (系统规则)
├── Tool (外部能力)
│ └── MCP (统一标准)
├── Agent (自主规划)
└── Agent Skill (行为规范)
技术演进逻辑
- LLM 提供基础能力
- Token 实现文本处理
- Context 提供记忆机制
- Prompt 实现人机交互
- Tool 扩展外部能力
- MCP 标准化工具接入
- Agent 实现自主工作
- Agent Skill 定制化行为
理解这套完整体系后,就能看懂 AI 圈的各种新产品和技术,无论是 Claude Code、Cursor 还是其他 AI 应用,本质上都在这个框架下运作。
参考来源:从 LLM 到 Agent Skill,一期视频带你打通底层逻辑!