大语言模型(理论篇)

1、文本是如何传入大模型的

**人类输入的是自然语言,模型真正处理的是数字。**文本进入大模型通常经历以下步骤:

这条链路里最重要的认识是:大模型并不是"直接读汉字或英文单词",而是先把文本转换成可计算的数字表示,再进行预测和生成。

2、Token(词元)基础

Token 是大语言模型处理文本的基本单位。它不一定等于一个完整单词,也不一定等于一个完整汉字,而是模型词表定义下的切分单元。

常见理解要点:

  • 英文里一个单词可能被拆成多个 Token。

  • 中文里一个字/词也可能被拆成多个 Token。

  • 模型的上下文长度、计费方式、响应速度,通常都与 Token 数量直接相关。

例如,用户输入一段很长的文档时,模型首先关心的不是"字数多少",而是"总共有多少 Token"。因此,Token 是连接"文本输入""模型计算""上下文长度"这三者的核心概念。

理解 Token 最重要的是以下三件事:

  1. Token 不等于字数,也不等于词数。 同样一句话,在不同模型里切分结果可能不同,所以不能简单按"多少字"来估算成本。

  2. 输入会消耗 Token,输出也会消耗 Token。 你给模型的背景资料越长,要求它输出越长,整体成本就越高。

  3. 历史对话也占 Token。 多轮聊天并不是"只算这一次提问",而是常常连同上下文一起送进模型,因此越聊越长,成本和延迟都会上升。

Token 的直观示例

Token 的切分方式取决于模型词表,下面只是帮助理解的近似示例:

输入内容 可能的 Token 切分方式 说明
Hello world Hello / world 英文常按词或子词切分
unbelievable un / believe / able 一个长单词可能被拆成多个 Token
人工智能 人工 / 智能 或 人 / 工 / 智 / 能 中文也可能按词或字拆分
CAIE Level 1 CA / IE / Level / 1 英文、缩写、数字混合时更容易被拆开

要点不是记住某个具体切法,而是明白:模型看到的不是自然语言原貌,而是一串 Token 序列。

Token 为什么会影响成本和速度

在实际使用 AI 工具时,Token 直接影响三个结果:

影响维度 Token 越多会怎样 对业务使用者意味着什么
成本 计费通常更高 长材料、大段上下文、多轮对话更贵
速度 模型处理更慢 响应延迟增加,批量任务更明显
长度限制 更容易触达上下文窗口上限 早期内容可能被压缩、截断或遗忘

很多平台的计费方式都可以概括为:

总费用 ≈ 输入 Token 费用 + 输出 Token 费用

也就是说,以下几种操作都会明显增加成本:

  • 把整篇长文原样粘进对话框。

  • 每次都重复发送同一段背景介绍。

  • 要求模型一次输出多版方案、超长报告或大段逐字改写。

  • 在一个很长的聊天里持续追问,而不做总结或重开新对话。

3、大语言模型如何"读懂"上下文(Transformer)

当前主流大语言模型大多基于 Transformer 架构。掌握两点:

  1. 模型不会孤立地理解某个词,而是会结合前后文一起判断含义。

  2. 模型能够关注句子中不同位置之间的关系,因此能根据上下文生成更合理的回答。

例如,"银行"这个词出现在"去银行办贷款"和"河流的银行"这两个句子里,表示的含义不同。

正确含义取决于周围词语。

Transformer 的价值就在于帮助模型综合上下文来判断"当前这个词到底是什么意思"。

如果再多理解一步,可以把 Transformer 的工作方式概括为三层意思:

  • 先把文字变成向量(Embedding)。 模型先把 Token 转成可计算的数字表示。

  • 再看位置关系(位置编码)。 模型不仅看"有哪些词",还要知道"这些词出现在哪个位置"。

  • 最后动态分配注意力(Self Attention)。 模型会根据当前词与上下文其他词的关系,决定该重点参考哪里。

其中最关键的机制是注意力机制(Attention)。它让模型在处理当前位置时,不必只机械地按顺序往后读,而是能"回看"上下文中与当前内容最相关的部分。正因为如此,大语言模型才会比早期序列模型更擅长摘要、问答、改写和复杂生成。

Transformer 为什么适合长文本理解

Transformer 的优势在于:它能在同一轮计算中同时考虑多个位置之间的关系,而不是只能一步接一步地传递信息。例如,当用户要求模型:

  • 综合一段材料中的多处信息,

  • 判断前后是否一致,

  • 根据前文设定继续往后写,

Transformer 通常比早期 RNN 类模型更有优势。

相关推荐
冬奇Lab7 小时前
Workflow 系列(03):状态管理——持久化、幂等性与版本绑定
人工智能·工作流引擎
冬奇Lab8 小时前
每日一个开源项目(第146篇):openpilot - 开源自动驾驶辅助系统,曾在 Consumer Reports 评测中超过特斯拉 Autopilot
人工智能·开源·自动驾驶
吴佳浩9 小时前
AI 工程师知识地图:模型格式、框架、部署工具一次讲明白
人工智能·aigc·ai编程
IT_陈寒9 小时前
Java的Date类又坑了我一次,改用时间戳真香
前端·人工智能·后端
码农胖大海10 小时前
AI额度不够用的解决方案
人工智能
后端小肥肠10 小时前
小红书虚拟商品怎么做?我先用 Skill 跑通了壁纸品类
人工智能·aigc·agent
feiyu_gao10 小时前
从零搭建个人 AI 工作台:一个管理者的 3 个月实验
人工智能·aigc·团队管理
程序员cxuan11 小时前
一句话,让你用上 GPT-5.6
人工智能·后端·程序员
机器之心11 小时前
AI圈刚开始谈Loop Engineering,两位95后博士已经盯上了人类闭环数据
人工智能·openai