从输入 prompt 到大模型输出最终回答,整个过程是一场高速、精密的语言概率预测与生成之旅。我们可以将其拆解为五个关键阶段,每个阶段都至关重要:
1. 输入预处理:把"人话"变成"机器语言"
大模型不理解文字,只处理数字。这一步是"翻译"。
-
分词(Tokenization)
将你的输入(如:"为什么天空是蓝色的?")拆分成最小的语义单元,称为 Token 。
例如:
["为", "什", "么", "天", "空", "是", "蓝", "色", "的", "?"](中文常按字切分,英文按词或子词)
-
Token ID 编码
每个 Token 会被映射为一个唯一的数字 ID(通过"词表"查表)。
例如:"天" → ID 2104,"空" → ID 3012。
-
嵌入(Embedding)
这些 ID 被转换为高维向量(如 4096 维),称为 Token Embedding 。
每个向量在"语义空间"中代表一个词的位置,语义相近的词向量距离也近。
✅ 结果:原始文本 → 一串数字 ID → 一串高维向量(输入序列)
2. 模型推理:在 Transformer 的"大脑"里思考
这是模型最核心的"智能"部分,通常由 Transformer 架构 完成。
-
自注意力机制(Self-Attention)
模型会分析每一个 Token 与其他所有 Token 的关联程度。
例如:"天空是蓝色的"中,"蓝色"和"天"有强关联。
这让模型能理解上下文,识别主谓宾、指代关系等。
-
多层神经网络处理(Feed-Forward Networks)
每一层都对注意力输出进行非线性变换,逐步提取更深层的语义信息。
-
位置编码(Positional Encoding)
因为 Transformer 本身没有"顺序"概念,所以必须加入位置信息,让模型知道"哪个词在第几个位置"。
✅ 结果:输入向量序列 → 经过数十层 Transformer 处理 → 输出一个"深层语义表示"的向量序列
3. 自回归生成:逐字"猜"出答案
模型不会一次性生成完整回答。它像一个"猜字游戏"选手,一个一个字地预测最可能的输出。
- 初始输入:模型从你输入的 Prompt 开始,结合其内部的"世界知识"进行推理。
- 逐个预测:模型用当前已生成的输出(如"因为")作为新输入,预测下一个最可能的 Token(如"光")。
- 概率采样 :模型为每个可能的 Token 分配一个概率 。常见策略有:
- 贪婪搜索:每次选概率最高的词。
- 束搜索(Beam Search):保留多个高概率路径,最终选最优。
- 采样(Sampling):根据概率随机选,增加多样性(如温度调节)。
✅ 结果 :模型一步步"生成"出完整回答,直到遇到结束标记(如
<|endoftext|>或</s>)
4. 后处理:把"机器语言"还原成"人话"
生成的 Token 序列是数字,需要还原成自然语言。
- Token 解码:将每个 Token ID 对应回原始文字(如 ID 2104 → "天")。
- 合并与去噪:将解码后的词串连起来,去除多余的空格、标点或无效符号。
- 格式优化:有时还会做语法纠错、标点补全、段落划分等处理。
✅ 结果:一串数字 → 变成通顺、自然的中文/英文回答
5. 返回结果:把答案交给你
最终,模型将处理好的回答以文本形式返回给用户,完成一次完整的交互。
🎯 总结
大模型将你的输入 prompt 通过"分词→编码→嵌入"转换为数字向量,再经过数十层 Transformer 的"深度理解与推理",最后以"自回归生成"的方式逐字预测答案,经"解码与后处理"还原为自然语言,最终返回给你。
🔍 附加说明:为什么看起来像"理解"?
虽然模型本身没有"意识"或"理解",但它通过学习海量文本数据,掌握了语言中的统计规律 。它并非"知道"天空是蓝色的,而是在"为什么天空是蓝色的?"这个输入下,见过大量类似问题和答案,因此能预测出最符合语言习惯的回应。
这本质上是一场基于"概率模式"的智能生成,而非真正的"思考"。
文字到一条流畅回答,背后是一整套人工智能系统的协同运作。