vllm框架深挖

首先学一个最有意思的知识点:大模型的工作流程

1. 输入与切分(Tokenization)

你发送问题后,大模型首先将句子切分成Token

2. 向量化映射(Embedding)

模型查阅巨大的"数字字典",将每个 Token 转化成一串长长的数字向量

3. 神经网络计算(Forward Propagation)

这些向量被送入拥有数千亿个参数(权重)的深层神经网络(Transformer)中。

4. 语义压缩与注意力机制(Attention)

经过上百层的层层计算,模型精准理解上下文的深层逻辑,并将整句话的语义压缩成一组隐藏状态矩阵

5. 概率分布预测(Logits & Softmax)

基于这组隐藏状态矩阵,模型在内部巨大的词表中,为每一个可能的"下一个 Token"计算出一个精确的概率值。

6. 采样与解码(Sampling & Decoding)

模型按照这些概率进行"掷骰子"(采样),抽中一个 Token,并将其翻译回人类能看懂的文字,输出在屏幕上。

7. 自回归循环(Autoregressive Loop)

模型将刚刚吐出的 Token 拼接到原问题后面,作为新的历史上下文,重新送入神经网络,重复第 3 至 6 步。如此周而复始,逐字生成,直到吐出代表"结束"的特殊符号(EOS Token)为止。