本文承接上篇《什么是LLM》,用最通俗、最直白的方式,把大模型最核心的5个技术概念一次性讲透。看完这篇,你再读任何大模型文章、文档、论文都不会再懵。
前言
在上一篇文章里,我们搞懂了什么是大语言模型(LLM)、狭义大模型与广义大模型的区别,以及大模型能做什么、不能做什么。
但只要你开始深入使用、部署、学习大模型,就会频繁遇到这些词:
Token、上下文长度、Embedding、预训练、微调 。
它们是大模型的"底层语言",不懂这5个概念,就很难真正理解大模型。
这篇文章不讲复杂公式、不堆专业术语,用大白话+生活例子,带你彻底吃透。
一、Token:大模型眼里的"文字单位"
1. 什么是Token?
Token(词元)是大模型处理文本的最小单位 。
模型不直接认识汉字、英文单词,它只认识Token。
可以简单理解为:
- 汉字 ≈ 1个Token
- 英文单词 ≈ 1个Token
- 数字、符号、标点 ≈ 1个Token
2. 官方换算规则
- 1个中文字符 ≈ 0.6个Token(近似1个)
- 1个英文字符 ≈ 0.3个Token
- 日常使用可以直接记:1个汉字 ≈ 1个Token
3. 为什么要懂Token?
- 计费:API按Token收费(输入+输出)
- 限制:模型一次能处理的文字上限由Token决定
- 效率:文本越长,Token越多,推理越慢
举个例子:
"人工智能正在改变世界"
分词后:人工、智能、正在、改变、世界 → 5个Token
一句话总结:
Token就是大模型的"文字货币",一切计算、长度、费用都按它算。


二、上下文窗口(Context Window):模型一次能"记住"多少内容
1. 什么是上下文窗口?
上下文窗口 = 模型单次推理能处理的最大Token总数 。
它包含两部分:
- 你输入的内容(问题、文档、对话历史)
- 模型输出的回答
两者加起来不能超过上限。
2. 常见上下文长度
- 小模型:2K、4K、8K
- 通用模型:32K、64K
- 长文本模型:128K、256K、1M以上
64K Token ≈ 4.8万字
128K Token ≈ 9.6万字
3. 上下文窗口决定什么?
- 能不能读完整篇长文档
- 能不能记住多轮对话
- 能不能处理长代码、长报告
- 能不能做复杂的总结与分析
比如:
你让模型读一份10万字的报告,如果模型只有64K窗口,就读不完,必须分段处理。
一句话总结:
上下文窗口越大,模型"一次性看懂"的内容越多,处理长文本越强。

三、Embedding(向量化):把文字变成模型能懂的数字
1. 什么是Embedding?
Embedding(词嵌入/向量化)就是把文字变成高维向量 。
模型不认识文字,只认识数字,所以必须做这一步。
通俗理解:
- 文字 → 编码 → 一串数字(如 [0.2, -0.5, 0.7, ...])
- 这串数字能保留语义:意思相近的词,向量距离很近
2. 向量化有什么用?
- 让模型理解词语之间的关系(近义词、反义词、上下位)
- 支持语义检索(搜意思,不搜关键词)
- 是RAG(知识库)的核心基础
- 所有多模态模型(图文、音视频)都依赖它
3. 文本处理标准三步流程
- 分词:把句子切成Token
- 映射ID:给每个Token一个唯一编号
- Embedding:把编号变成高维向量
一句话总结:
Embedding就是把人类语言"翻译"成机器语言,是大模型理解语义的关键。
四、预训练(Pre-training):大模型"学会知识"的阶段
1. 什么是预训练?
预训练是用海量文本,让模型从零学到语言规律与世界知识的过程 。
这是大模型最耗时、最烧钱、最核心的一步。
2. 预训练学什么?
- 语法、逻辑、常识
- 世界知识(历史、地理、科技、文化)
- 语言风格、行文结构
- 代码、专业领域知识
训练目标非常简单:
根据上文,预测下一个Token。
3. 预训练的特点
- 数据量:数千亿~数万亿Token
- 硬件:上千张A100/H100 GPU
- 时间:数周到数月
- 结果:得到一个基础模型(Base Model)
它会续写文本,但不一定听懂人类指令。
一句话总结:
预训练 = 大模型"上小学到博士",把人类所有知识学一遍。
五、微调(Fine-tuning):让模型"听懂人话、乖乖做事"
1. 什么是微调?
微调是在预训练模型基础上,用高质量指令数据,让模型学会遵循人类意图 。
最常见的叫 SFT(监督微调)。
2. 微调做什么?
- 让模型听懂指令:"总结""翻译""写代码""解释"
- 让输出更规范、更安全、更有用
- 适配特定场景:客服、法律、教育、代码
例子:
输入:复旦大学有几个校区?
输出:复旦大学有4个校区......
模型从"随机续写"变成"准确回答"。
3. 微调 vs 预训练
- 预训练:学知识,耗时长、成本极高
- 微调:学指令,耗时短、成本低
- 顺序:先预训练,再微调
一句话总结:
预训练让模型"有知识",微调让模型"懂指令、会干活"。
六、5大概念串起来:大模型工作的完整流程
用一段极简流程帮你打通逻辑:
- 你输入文字 → 分词成Token
- 文字转为 Embedding向量
- 模型在 上下文窗口 内读取信息
- 模型用 预训练 学到的知识理解语义
- 模型用 微调 学到的规则生成回答
这就是大模型从输入到输出的完整过程。
七、总结:5句话背下大模型核心
- Token 是模型的最小文字单位,决定长度与费用。
- 上下文窗口 是模型一次能处理的最大文本长度。
- Embedding 把文字变向量,让模型理解语义。
- 预训练 让模型学习海量知识。
- 微调 让模型听懂指令、对齐人类需求。
只要记住这5个概念,你就已经超过了80%的初学者,能看懂绝大多数大模型技术文章、教程、文档。