大模型是什么?

目录

[LLM(Large language model)](#LLM(Large language model))

大模型读文字的方式:token

[大模型的短期记忆上限:上下文窗口(Context window)](#大模型的短期记忆上限:上下文窗口(Context window))

对话的角色结构(system,user,assistant)

大模型可以做什么


LLM(Large language model)

"大"在哪里:

参数量大:数千亿的参数量

训练数据大:被研发人员喂了大量各行各业的知识

工作模式:根据给出的前文上下文,预测下一个最可能出现的文字


大模型读文字的方式:token

Token是大模型处理文本的基本单位

一个token对应1~2个汉字,0.5~1个单词

  • 模型能处理的文本长度上限(也叫上下文窗口)是按token来算的
  • API调用的费用也是按token来算的
  • 流式输出一段一段吐的就是 Token

大模型的短期记忆上限:上下文窗口(Context window)

大模型每次对话时,能看见的内容总量上限,用Token衡量

大模型本身是"无记忆的",每一次提问对于大模型来讲都是一次新的提问,大模型并不记得上次聊了什么

应用代码在负责记忆,每次对话都要把前面的对话打包成一个列表发给大模型

所以对话越多,token越多,上下文窗口就会被写满

Agent需要管理记忆,执行长任务时,主动决定传入哪些历史


对话的角色结构(system,user,assistant)

既然历史对话要靠消息列表来传递,就要为每一个消息定义一个角色(role)

system:系统提示,定义模型的"身份设定和行为规则",用户看不见,但是模型会遵守

user:用户输入

assistant:模型的回答

模型只有看见消息列表才知道之前说过什么


大模型可以做什么

  1. 听得懂人话,能理解用户意图

  2. 会思考,拆解任务,做决策

  3. 能生成符合要求的回答

  4. 看的懂规则,能根据指定的规则执行


大模型做不到什么

  1. 没有执行能力,只会出主意 → agent

  2. 只有基于训练日期之前的知识,遇到不会的问题,会产生幻觉 → RAG

  3. 上下文窗口有限,记不住太长的内容 → RAG

相关推荐
STRUGGLE_xlf21 小时前
Agent 基础
人工智能·agent
wuxiiing21 小时前
Agent 指令手术刀:别再把 AGENTS.md 写成说明书
agent
嘻嘻仙人21 小时前
向量数据库基础算法——HNSW(层次化可导航小世界)算法
agent
天一生水water21 小时前
agent教程S01-Agent 最小循环教程整理
java·服务器·网络·agent
m0_641889291 天前
2026最新GEO优化效果监测分析工具实测:Top 5平台深度横评
人工智能·大模型·agent·品牌营销·geo·智能营销·geo优化
huzhongqiang1 天前
120行代码实现一个极简 Agent
后端·agent
程序员柒叔1 天前
OpenClaw 一周动态-2026-W23
人工智能·github·agent·openclaw
jeffer_liu1 天前
Spring AI 生产级实战:多模态
java·人工智能·后端·spring·大模型
InternLM1 天前
从「模型类型不支持」到成功推理:Intern-S2-Preview oMLX 4bit 量化实录 | 与书生共创
人工智能·大模型·多模态模型