目录
[LLM(Large language model)](#LLM(Large language model))
[大模型的短期记忆上限:上下文窗口(Context window)](#大模型的短期记忆上限:上下文窗口(Context window))
对话的角色结构(system,user,assistant)
LLM(Large language model)
"大"在哪里:
参数量大:数千亿的参数量
训练数据大:被研发人员喂了大量各行各业的知识
工作模式:根据给出的前文上下文,预测下一个最可能出现的文字
大模型读文字的方式:token
Token是大模型处理文本的基本单位
一个token对应1~2个汉字,0.5~1个单词
- 模型能处理的文本长度上限(也叫上下文窗口)是按token来算的
- API调用的费用也是按token来算的
- 流式输出一段一段吐的就是 Token
大模型的短期记忆上限:上下文窗口(Context window)
大模型每次对话时,能看见的内容总量上限,用Token衡量
大模型本身是"无记忆的",每一次提问对于大模型来讲都是一次新的提问,大模型并不记得上次聊了什么
应用代码在负责记忆,每次对话都要把前面的对话打包成一个列表发给大模型
所以对话越多,token越多,上下文窗口就会被写满
Agent需要管理记忆,执行长任务时,主动决定传入哪些历史
对话的角色结构(system,user,assistant)
既然历史对话要靠消息列表来传递,就要为每一个消息定义一个角色(role)
system:系统提示,定义模型的"身份设定和行为规则",用户看不见,但是模型会遵守
user:用户输入
assistant:模型的回答
模型只有看见消息列表才知道之前说过什么
大模型可以做什么
-
听得懂人话,能理解用户意图
-
会思考,拆解任务,做决策
-
能生成符合要求的回答
-
看的懂规则,能根据指定的规则执行
大模型做不到什么
-
没有执行能力,只会出主意 → agent
-
只有基于训练日期之前的知识,遇到不会的问题,会产生幻觉 → RAG
-
上下文窗口有限,记不住太长的内容 → RAG