transformer知识补足

今天DeepSeek-V4预览版上线了，同时官方还给出了其技术报告。看了几页发现知识真的是学而不思就很容易忘记，故在此结合技术报告温习、学习一些transformer以及LLM的概念。

KV Cache：在Transformer 逐 token 生成回答时，每次只产生一个新 token，但为了计算这个新 token 与历史所有 token 的关系，需要存储之前每个 token 的 Key 和 Value，类似于键值对
Token交互：在 Transformer 的注意力机制中，每个token之间的"交流"是通过计算相关性分数完成的，随后会两两计算并给出一个加权融合的信息，正是这种交流方式导致了O(n²)
局部视野 / 近邻盲区：在注意力变体中，由于进行了压缩的操作，很多token之间本来紧密挨着的部分因为融合消失了，此时就引入滑动窗口，令其关注未被压缩的相邻token，从而使其不至于忽略掉局部信息
全词表 logit 蒸馏：让学生模型去学习专家模型各个领域的能力，本质上是把这些模型关于词表的预测概率分布给学生模型学习，令其在这些词上输出的概率分布尽可能地靠近每个专家领域
KL散度：把上文中提到的专家模型的概率分布比喻成一张图，学生模型的分布比喻成另一张图，KL 散度就是计算这两张图的"形状有多不一样"。数值越小，说明学生模仿得越好。而反向 KL 散度则会特别惩罚学生"低估"了老师分布里本来就很高的区域，从而避免"只学一半"，在后训练中，DeepSeek‑V4 用最小化学生与老师之间的反向 KL 散度来更新学生模型，强迫学生认真模仿老师的全部输出概率。
双随机矩阵：满足两个条件的矩阵：所有元素都是非负数以及每一行的和 = 1，每一列的和 = 1。这样的结构保证了不过中间过程怎么样，分布怎么样，输出输入依然保持一致。