vllm框架深挖 - 技术栈

首先学一个最有意思的知识点：大模型的工作流程

1. 输入与切分（Tokenization）

你发送问题后，大模型首先将句子切分成Token。

2. 向量化映射（Embedding）

模型查阅巨大的"数字字典"，将每个 Token 转化成一串长长的数字向量

3. 神经网络计算（Forward Propagation）

这些向量被送入拥有数千亿个参数（权重）的深层神经网络（Transformer）中。

4. 语义压缩与注意力机制（Attention）

经过上百层的层层计算，模型精准理解上下文的深层逻辑，并将整句话的语义压缩成一组隐藏状态矩阵。

5. 概率分布预测（Logits & Softmax）

基于这组隐藏状态矩阵，模型在内部巨大的词表中，为每一个可能的"下一个 Token"计算出一个精确的概率值。

6. 采样与解码（Sampling & Decoding）

模型按照这些概率进行"掷骰子"（采样），抽中一个 Token，并将其翻译回人类能看懂的文字，输出在屏幕上。

7. 自回归循环（Autoregressive Loop）

模型将刚刚吐出的 Token 拼接到原问题后面，作为新的历史上下文，重新送入神经网络，重复第 3 至 6 步。如此周而复始，逐字生成，直到吐出代表"结束"的特殊符号（EOS Token）为止。