今天DeepSeek-V4预览版上线了,同时官方还给出了其技术报告。看了几页发现知识真的是学而不思就很容易忘记,故在此结合技术报告温习、学习一些transformer以及LLM的概念。
-
KV Cache:在Transformer 逐 token 生成回答时,每次只产生一个新 token,但为了计算这个新 token 与历史所有 token 的关系,需要存储之前每个 token 的 Key 和 Value,类似于键值对
-
Token交互:在 Transformer 的注意力机制中,每个token之间的"交流"是通过计算相关性分数完成的,随后会两两计算并给出一个加权融合的信息,正是这种交流方式导致了O(n²)
-
局部视野 / 近邻盲区:在注意力变体中,由于进行了压缩的操作,很多token之间本来紧密挨着的部分因为融合消失了,此时就引入滑动窗口,令其关注未被压缩的相邻token,从而使其不至于忽略掉局部信息
-
全词表 logit 蒸馏:让学生模型去学习专家模型各个领域的能力,本质上是把这些模型关于词表的预测概率分布给学生模型学习,令其在这些词上输出的概率分布尽可能地靠近每个专家领域
-
KL散度:把上文中提到的专家模型的概率分布比喻成一张图,学生模型的分布比喻成另一张图,KL 散度就是计算这两张图的"形状有多不一样"。数值越小,说明学生模仿得越好。而反向 KL 散度则会特别惩罚学生"低估"了老师分布里本来就很高的区域,从而避免"只学一半",在后训练中,DeepSeek‑V4 用最小化学生与老师之间的反向 KL 散度来更新学生模型,强迫学生认真模仿老师的全部输出概率。
-
双随机矩阵:满足两个条件的矩阵:所有元素都是非负数以及每一行的和 = 1,每一列的和 = 1。这样的结构保证了不过中间过程怎么样,分布怎么样,输出输入依然保持一致。