大模型是什么?

目录

[LLM(Large language model)](#LLM(Large language model))

大模型读文字的方式:token

[大模型的短期记忆上限:上下文窗口(Context window)](#大模型的短期记忆上限:上下文窗口(Context window))

对话的角色结构(system,user,assistant)

大模型可以做什么


LLM(Large language model)

"大"在哪里:

参数量大:数千亿的参数量

训练数据大:被研发人员喂了大量各行各业的知识

工作模式:根据给出的前文上下文,预测下一个最可能出现的文字


大模型读文字的方式:token

Token是大模型处理文本的基本单位

一个token对应1~2个汉字,0.5~1个单词

  • 模型能处理的文本长度上限(也叫上下文窗口)是按token来算的
  • API调用的费用也是按token来算的
  • 流式输出一段一段吐的就是 Token

大模型的短期记忆上限:上下文窗口(Context window)

大模型每次对话时,能看见的内容总量上限,用Token衡量

大模型本身是"无记忆的",每一次提问对于大模型来讲都是一次新的提问,大模型并不记得上次聊了什么

应用代码在负责记忆,每次对话都要把前面的对话打包成一个列表发给大模型

所以对话越多,token越多,上下文窗口就会被写满

Agent需要管理记忆,执行长任务时,主动决定传入哪些历史


对话的角色结构(system,user,assistant)

既然历史对话要靠消息列表来传递,就要为每一个消息定义一个角色(role)

system:系统提示,定义模型的"身份设定和行为规则",用户看不见,但是模型会遵守

user:用户输入

assistant:模型的回答

模型只有看见消息列表才知道之前说过什么


大模型可以做什么

  1. 听得懂人话,能理解用户意图

  2. 会思考,拆解任务,做决策

  3. 能生成符合要求的回答

  4. 看的懂规则,能根据指定的规则执行


大模型做不到什么

  1. 没有执行能力,只会出主意 → agent

  2. 只有基于训练日期之前的知识,遇到不会的问题,会产生幻觉 → RAG

  3. 上下文窗口有限,记不住太长的内容 → RAG

相关推荐
无敌昊哥战神2 小时前
大模型(LLM)推理优化技术全景总结
python·算法·大模型
Fleshy数模2 小时前
基于 LangChain 实现 PDF 文档检索:从加载到向量检索全流程
人工智能·数据挖掘·langchain·大模型
阿里云云原生2 小时前
实战揭秘:如何让你的 Agent 无缝接入现有系统?
agent
Li_yizYa2 小时前
【大模型篇】谈谈对于Function Calling、MCP、Skill的理解
ai·大模型
凌奕2 小时前
100 行代码搞懂多 Agent 协同:LangGraph 最小可运行示例(研究员 vs 批评家 + 总结员)
langchain·agent
小李子呢02112 小时前
什么是agent?
agent
带刺的坐椅3 小时前
Spring AI 2.0 GA 倒计时:先别急,来看看 Java AI 框架的另一条路
java·spring·ai·llm·agent·solon
JunLa3 小时前
Agent Basic 上篇
大数据·人工智能·agent
ZGi.ai4 小时前
私有化大模型接入企业系统:SSO+权限+API网关完整方案
java·开发语言·大模型·私有化部署·sso·企业架构