大模型基础(二):必懂5大基础概念《Token、上下文窗口、Embedding、预训练、微调》

本文承接上篇《什么是LLM》,用最通俗、最直白的方式,把大模型最核心的5个技术概念一次性讲透。看完这篇,你再读任何大模型文章、文档、论文都不会再懵。


前言

在上一篇文章里,我们搞懂了什么是大语言模型(LLM)、狭义大模型与广义大模型的区别,以及大模型能做什么、不能做什么。

但只要你开始深入使用、部署、学习大模型,就会频繁遇到这些词:
Token、上下文长度、Embedding、预训练、微调

它们是大模型的"底层语言",不懂这5个概念,就很难真正理解大模型。

这篇文章不讲复杂公式、不堆专业术语,用大白话+生活例子,带你彻底吃透。


一、Token:大模型眼里的"文字单位"

1. 什么是Token?

Token(词元)是大模型处理文本的最小单位

模型不直接认识汉字、英文单词,它只认识Token。

可以简单理解为:

  • 汉字 ≈ 1个Token
  • 英文单词 ≈ 1个Token
  • 数字、符号、标点 ≈ 1个Token

2. 官方换算规则

  • 1个中文字符 ≈ 0.6个Token(近似1个)
  • 1个英文字符 ≈ 0.3个Token
  • 日常使用可以直接记:1个汉字 ≈ 1个Token

3. 为什么要懂Token?

  • 计费:API按Token收费(输入+输出)
  • 限制:模型一次能处理的文字上限由Token决定
  • 效率:文本越长,Token越多,推理越慢

举个例子:

"人工智能正在改变世界"

分词后:人工、智能、正在、改变、世界 → 5个Token

一句话总结:
Token就是大模型的"文字货币",一切计算、长度、费用都按它算。


二、上下文窗口(Context Window):模型一次能"记住"多少内容

1. 什么是上下文窗口?

上下文窗口 = 模型单次推理能处理的最大Token总数

它包含两部分:

  • 你输入的内容(问题、文档、对话历史)
  • 模型输出的回答

两者加起来不能超过上限。

2. 常见上下文长度

  • 小模型:2K、4K、8K
  • 通用模型:32K、64K
  • 长文本模型:128K、256K、1M以上

64K Token ≈ 4.8万字

128K Token ≈ 9.6万字

3. 上下文窗口决定什么?

  • 能不能读完整篇长文档
  • 能不能记住多轮对话
  • 能不能处理长代码、长报告
  • 能不能做复杂的总结与分析

比如:

你让模型读一份10万字的报告,如果模型只有64K窗口,就读不完,必须分段处理。

一句话总结:
上下文窗口越大,模型"一次性看懂"的内容越多,处理长文本越强。


三、Embedding(向量化):把文字变成模型能懂的数字

1. 什么是Embedding?

Embedding(词嵌入/向量化)就是把文字变成高维向量

模型不认识文字,只认识数字,所以必须做这一步。

通俗理解:

  • 文字 → 编码 → 一串数字(如 0.2, -0.5, 0.7, ...
  • 这串数字能保留语义:意思相近的词,向量距离很近

2. 向量化有什么用?

  • 让模型理解词语之间的关系(近义词、反义词、上下位)
  • 支持语义检索(搜意思,不搜关键词)
  • 是RAG(知识库)的核心基础
  • 所有多模态模型(图文、音视频)都依赖它

3. 文本处理标准三步流程

  1. 分词:把句子切成Token
  2. 映射ID:给每个Token一个唯一编号
  3. Embedding:把编号变成高维向量

一句话总结:
Embedding就是把人类语言"翻译"成机器语言,是大模型理解语义的关键。


四、预训练(Pre-training):大模型"学会知识"的阶段

1. 什么是预训练?

预训练是用海量文本,让模型从零学到语言规律与世界知识的过程

这是大模型最耗时、最烧钱、最核心的一步。

2. 预训练学什么?

  • 语法、逻辑、常识
  • 世界知识(历史、地理、科技、文化)
  • 语言风格、行文结构
  • 代码、专业领域知识

训练目标非常简单:
根据上文,预测下一个Token。

3. 预训练的特点

  • 数据量:数千亿~数万亿Token
  • 硬件:上千张A100/H100 GPU
  • 时间:数周到数月
  • 结果:得到一个基础模型(Base Model)
    它会续写文本,但不一定听懂人类指令。

一句话总结:
预训练 = 大模型"上小学到博士",把人类所有知识学一遍。


五、微调(Fine-tuning):让模型"听懂人话、乖乖做事"

1. 什么是微调?

微调是在预训练模型基础上,用高质量指令数据,让模型学会遵循人类意图

最常见的叫 SFT(监督微调)

2. 微调做什么?

  • 让模型听懂指令:"总结""翻译""写代码""解释"
  • 让输出更规范、更安全、更有用
  • 适配特定场景:客服、法律、教育、代码

例子:

输入:复旦大学有几个校区?

输出:复旦大学有4个校区......

模型从"随机续写"变成"准确回答"。

3. 微调 vs 预训练

  • 预训练:学知识,耗时长、成本极高
  • 微调:学指令,耗时短、成本低
  • 顺序:先预训练,再微调

一句话总结:
预训练让模型"有知识",微调让模型"懂指令、会干活"。


六、5大概念串起来:大模型工作的完整流程

用一段极简流程帮你打通逻辑:

  1. 你输入文字 → 分词成Token
  2. 文字转为 Embedding向量
  3. 模型在 上下文窗口 内读取信息
  4. 模型用 预训练 学到的知识理解语义
  5. 模型用 微调 学到的规则生成回答

这就是大模型从输入到输出的完整过程。


七、总结:5句话背下大模型核心

  1. Token 是模型的最小文字单位,决定长度与费用。
  2. 上下文窗口 是模型一次能处理的最大文本长度。
  3. Embedding 把文字变向量,让模型理解语义。
  4. 预训练 让模型学习海量知识。
  5. 微调 让模型听懂指令、对齐人类需求。

只要记住这5个概念,你就已经超过了80%的初学者,能看懂绝大多数大模型技术文章、教程、文档。


相关推荐
knqiufan6 分钟前
从 Python 到 TypeScript,用 GLM-5.2 跑通 PowerMem SDK 的长程任务工程
ai·memory·agentic·powermem
小白跃升坊20 小时前
Codex 增强部署:基于 Codex++ 接入 DeepSeek
ai·ai编程·codex·deepseek·ai coding·codex++
AlfredZhao20 小时前
GPT 省钱,不是别用最新模型,而是别浪费缓存
gpt·ai
doiito1 天前
【Agent Harness】Gliding Horse 本体论系统设计:给 AI Agent 装上“语义大脑”
ai·rust·架构设计·系统设计·ai agent
小七-七牛开发者1 天前
周一上线 | SpaceX 收购 Cursor、支付宝进入 AI 时代、DeepSeek 完成 500 亿元融资
ai·agent·token·glm·智谱·claudecode·ai coding·周一上线
doiito2 天前
【Agent Harness】为什么我把 JSON‑LD “编译成 DAG” 后,整个 Agent 平台立刻聪明了
ai·rust·架构设计·系统设计·ai agent
xiezhr2 天前
折腾半小时,终于让AI 能直接帮我写飞书文档了
ai·飞书·ai agent·飞书cli·飞书文档
岳小哥AI2 天前
Claude Fable和Claude Mythos 5同时发布:注意力机制下愈加强大的AI大模型
ai·ai基础
Artech2 天前
[MAF预定义的AIContextProvider-04]Mem0Provider——长期记忆基于的云端解决方案
ai·agent·maf·aicontextprovider·chathistorymemoryprovider·mem0provider
哥不是小萝莉3 天前
一文读懂 OpenAI Codex 源码的原理、架构与未来
ai