大语言模型（理论篇）

1、文本是如何传入大模型的

**人类输入的是自然语言，模型真正处理的是数字。**文本进入大模型通常经历以下步骤：

这条链路里最重要的认识是：大模型并不是"直接读汉字或英文单词"，而是先把文本转换成可计算的数字表示，再进行预测和生成。

Token 是大语言模型处理文本的基本单位。它不一定等于一个完整单词，也不一定等于一个完整汉字，而是模型词表定义下的切分单元。

常见理解要点：

例如，用户输入一段很长的文档时，模型首先关心的不是"字数多少"，而是"总共有多少 Token"。因此，Token 是连接"文本输入""模型计算""上下文长度"这三者的核心概念。

理解 Token 最重要的是以下三件事：

Token 的切分方式取决于模型词表，下面只是帮助理解的近似示例：

要点不是记住某个具体切法，而是明白：模型看到的不是自然语言原貌，而是一串 Token 序列。

在实际使用 AI 工具时，Token 直接影响三个结果：

很多平台的计费方式都可以概括为：

总费用 ≈ 输入 Token 费用 + 输出 Token 费用

也就是说，以下几种操作都会明显增加成本：

当前主流大语言模型大多基于 Transformer 架构。掌握两点：

例如，"银行"这个词出现在"去银行办贷款"和"河流的银行"这两个句子里，表示的含义不同。

正确含义取决于周围词语。

Transformer 的价值就在于帮助模型综合上下文来判断"当前这个词到底是什么意思"。

如果再多理解一步，可以把 Transformer 的工作方式概括为三层意思：

其中最关键的机制是注意力机制（Attention）。它让模型在处理当前位置时，不必只机械地按顺序往后读，而是能"回看"上下文中与当前内容最相关的部分。正因为如此，大语言模型才会比早期序列模型更擅长摘要、问答、改写和复杂生成。

Transformer 的优势在于：它能在同一轮计算中同时考虑多个位置之间的关系，而不是只能一步接一步地传递信息。例如，当用户要求模型：

Transformer 通常比早期 RNN 类模型更有优势。