大模型基础（二）：必懂5大基础概念《Token、上下文窗口、Embedding、预训练、微调》

本文承接上篇《什么是LLM》，用最通俗、最直白的方式，把大模型最核心的5个技术概念一次性讲透。看完这篇，你再读任何大模型文章、文档、论文都不会再懵。

前言

在上一篇文章里，我们搞懂了什么是大语言模型（LLM）、狭义大模型与广义大模型的区别，以及大模型能做什么、不能做什么。

但只要你开始深入使用、部署、学习大模型，就会频繁遇到这些词：
Token、上下文长度、Embedding、预训练、微调 。

它们是大模型的"底层语言"，不懂这5个概念，就很难真正理解大模型。

这篇文章不讲复杂公式、不堆专业术语，用大白话+生活例子，带你彻底吃透。

一、Token：大模型眼里的"文字单位"

1. 什么是Token？

Token（词元）是大模型处理文本的最小单位 。

模型不直接认识汉字、英文单词，它只认识Token。

可以简单理解为：

汉字 ≈ 1个Token
英文单词 ≈ 1个Token
数字、符号、标点 ≈ 1个Token

2. 官方换算规则

1个中文字符 ≈ 0.6个Token（近似1个）
1个英文字符 ≈ 0.3个Token
日常使用可以直接记：1个汉字 ≈ 1个Token

3. 为什么要懂Token？

计费：API按Token收费（输入+输出）
限制：模型一次能处理的文字上限由Token决定
效率：文本越长，Token越多，推理越慢

举个例子：

"人工智能正在改变世界"

分词后：人工、智能、正在、改变、世界 → 5个Token

一句话总结：
Token就是大模型的"文字货币"，一切计算、长度、费用都按它算。

二、上下文窗口（Context Window）：模型一次能"记住"多少内容

1. 什么是上下文窗口？

上下文窗口 = 模型单次推理能处理的最大Token总数 。

它包含两部分：

你输入的内容（问题、文档、对话历史）
模型输出的回答

两者加起来不能超过上限。

2. 常见上下文长度

小模型：2K、4K、8K
通用模型：32K、64K
长文本模型：128K、256K、1M以上

64K Token ≈ 4.8万字

128K Token ≈ 9.6万字

3. 上下文窗口决定什么？

能不能读完整篇长文档
能不能记住多轮对话
能不能处理长代码、长报告
能不能做复杂的总结与分析

比如：

你让模型读一份10万字的报告，如果模型只有64K窗口，就读不完，必须分段处理。

一句话总结：
上下文窗口越大，模型"一次性看懂"的内容越多，处理长文本越强。

三、Embedding（向量化）：把文字变成模型能懂的数字

1. 什么是Embedding？

Embedding（词嵌入/向量化）就是把文字变成高维向量 。

模型不认识文字，只认识数字，所以必须做这一步。

通俗理解：

文字 → 编码 → 一串数字（如 $0.2, -0.5, 0.7, ...$ ）
这串数字能保留语义：意思相近的词，向量距离很近

2. 向量化有什么用？

让模型理解词语之间的关系（近义词、反义词、上下位）
支持语义检索（搜意思，不搜关键词）
是RAG（知识库）的核心基础
所有多模态模型（图文、音视频）都依赖它

3. 文本处理标准三步流程

分词：把句子切成Token
映射ID：给每个Token一个唯一编号
Embedding：把编号变成高维向量

一句话总结：
Embedding就是把人类语言"翻译"成机器语言，是大模型理解语义的关键。

四、预训练（Pre-training）：大模型"学会知识"的阶段

1. 什么是预训练？

预训练是用海量文本，让模型从零学到语言规律与世界知识的过程 。

这是大模型最耗时、最烧钱、最核心的一步。

2. 预训练学什么？

语法、逻辑、常识
世界知识（历史、地理、科技、文化）
语言风格、行文结构
代码、专业领域知识

训练目标非常简单：
根据上文，预测下一个Token。

3. 预训练的特点

数据量：数千亿～数万亿Token
硬件：上千张A100/H100 GPU
时间：数周到数月
结果：得到一个基础模型（Base Model）
它会续写文本，但不一定听懂人类指令。

一句话总结：
预训练 = 大模型"上小学到博士"，把人类所有知识学一遍。

五、微调（Fine-tuning）：让模型"听懂人话、乖乖做事"

1. 什么是微调？

微调是在预训练模型基础上，用高质量指令数据，让模型学会遵循人类意图 。

最常见的叫 SFT（监督微调）。

2. 微调做什么？

让模型听懂指令："总结""翻译""写代码""解释"
让输出更规范、更安全、更有用
适配特定场景：客服、法律、教育、代码

例子：

输入：复旦大学有几个校区？

输出：复旦大学有4个校区......

模型从"随机续写"变成"准确回答"。

3. 微调 vs 预训练

预训练：学知识，耗时长、成本极高
微调：学指令，耗时短、成本低
顺序：先预训练，再微调

一句话总结：
预训练让模型"有知识"，微调让模型"懂指令、会干活"。

六、5大概念串起来：大模型工作的完整流程

用一段极简流程帮你打通逻辑：

你输入文字 → 分词成Token
文字转为 Embedding向量
模型在 上下文窗口 内读取信息
模型用 预训练 学到的知识理解语义
模型用微调学到的规则生成回答

这就是大模型从输入到输出的完整过程。

七、总结：5句话背下大模型核心

Token 是模型的最小文字单位，决定长度与费用。
上下文窗口 是模型一次能处理的最大文本长度。
Embedding 把文字变向量，让模型理解语义。
预训练 让模型学习海量知识。
微调让模型听懂指令、对齐人类需求。

只要记住这5个概念，你就已经超过了80%的初学者，能看懂绝大多数大模型技术文章、教程、文档。