大模型是什么?

目录

[LLM(Large language model)](#LLM(Large language model))

大模型读文字的方式:token

[大模型的短期记忆上限:上下文窗口(Context window)](#大模型的短期记忆上限:上下文窗口(Context window))

对话的角色结构(system,user,assistant)

大模型可以做什么


LLM(Large language model)

"大"在哪里:

参数量大:数千亿的参数量

训练数据大:被研发人员喂了大量各行各业的知识

工作模式:根据给出的前文上下文,预测下一个最可能出现的文字


大模型读文字的方式:token

Token是大模型处理文本的基本单位

一个token对应1~2个汉字,0.5~1个单词

  • 模型能处理的文本长度上限(也叫上下文窗口)是按token来算的
  • API调用的费用也是按token来算的
  • 流式输出一段一段吐的就是 Token

大模型的短期记忆上限:上下文窗口(Context window)

大模型每次对话时,能看见的内容总量上限,用Token衡量

大模型本身是"无记忆的",每一次提问对于大模型来讲都是一次新的提问,大模型并不记得上次聊了什么

应用代码在负责记忆,每次对话都要把前面的对话打包成一个列表发给大模型

所以对话越多,token越多,上下文窗口就会被写满

Agent需要管理记忆,执行长任务时,主动决定传入哪些历史


对话的角色结构(system,user,assistant)

既然历史对话要靠消息列表来传递,就要为每一个消息定义一个角色(role)

system:系统提示,定义模型的"身份设定和行为规则",用户看不见,但是模型会遵守

user:用户输入

assistant:模型的回答

模型只有看见消息列表才知道之前说过什么


大模型可以做什么

  1. 听得懂人话,能理解用户意图

  2. 会思考,拆解任务,做决策

  3. 能生成符合要求的回答

  4. 看的懂规则,能根据指定的规则执行


大模型做不到什么

  1. 没有执行能力,只会出主意 → agent

  2. 只有基于训练日期之前的知识,遇到不会的问题,会产生幻觉 → RAG

  3. 上下文窗口有限,记不住太长的内容 → RAG

相关推荐
九酒5 小时前
AI Agent 开发踩坑记:口播功能非得用 APP 原生实现吗?
前端·人工智能·agent
Jackson__6 小时前
做了一段时间的AI coding后,我终于搞清了 CLI 和 MCP 的区别
前端·agent·ai编程
fengliaoai9 小时前
DeepSeek搞了个DSpark,AI直接进入“秒回时代”,你还在傻等?
大模型
小孔菜菜12 小时前
LLM / Agent / Skills / MCP 协同关系深度解析
agent
JouYY13 小时前
聊一下多 Agent 编排架构的应用实践
架构·llm·agent
米小虾15 小时前
Loop Engineering —— 循环的设计与自主执行
人工智能·agent
米小虾15 小时前
Harness Engineering —— 系统的安全护栏
人工智能·agent
武子康17 小时前
调查研究-200 llama.cpp b9754:一次很小但很关键的 Agent 工具调用修复
人工智能·agent·llama
武子康17 小时前
调查研究-199 MCP Zero-Touch OAuth:为什么它是 MCP 进入企业生产的关键门槛?
人工智能·agent·mcp