transformer知识补足

今天DeepSeek-V4预览版上线了,同时官方还给出了其技术报告。看了几页发现知识真的是学而不思就很容易忘记,故在此结合技术报告温习、学习一些transformer以及LLM的概念。

  • KV Cache:在Transformer 逐 token 生成回答时,每次只产生一个新 token,但为了计算这个新 token 与历史所有 token 的关系,需要存储之前每个 token 的 Key 和 Value,类似于键值对

  • Token交互:在 Transformer 的注意力机制中,每个token之间的"交流"是通过计算相关性分数完成的,随后会两两计算并给出一个加权融合的信息,正是这种交流方式导致了O(n²)

  • 局部视野 / 近邻盲区:在注意力变体中,由于进行了压缩的操作,很多token之间本来紧密挨着的部分因为融合消失了,此时就引入滑动窗口,令其关注未被压缩的相邻token,从而使其不至于忽略掉局部信息

  • 全词表 logit 蒸馏:让学生模型去学习专家模型各个领域的能力,本质上是把这些模型关于词表的预测概率分布给学生模型学习,令其在这些词上输出的概率分布尽可能地靠近每个专家领域

  • KL散度:把上文中提到的专家模型的概率分布比喻成一张图,学生模型的分布比喻成另一张图,KL 散度就是计算这两张图的"形状有多不一样"。数值越小,说明学生模仿得越好。而反向 KL 散度则会特别惩罚学生"低估"了老师分布里本来就很高的区域,从而避免"只学一半",在后训练中,DeepSeek‑V4 用最小化学生与老师之间的反向 KL 散度来更新学生模型,强迫学生认真模仿老师的全部输出概率。

  • 双随机矩阵:满足两个条件的矩阵:所有元素都是非负数以及每一行的和 = 1,每一列的和 = 1。这样的结构保证了不过中间过程怎么样,分布怎么样,输出输入依然保持一致。

相关推荐
叶子Talk2 小时前
xAI发布Grok Build,全球AI终端展深圳开幕:AI从云端走向终端
人工智能·ai·agent·xai·grok build·终端ai
渣渣苏3 小时前
怎么量化一个Agent的性能?
人工智能·ai·agent·智能体
HIT_Weston8 小时前
83、【Agent】【OpenCode】bash 工具提示词(commit 注意事项)(一)
人工智能·agent·opencode
奔跑吧仓鼠9 小时前
agent 记忆模块(openclaw)
agent
Json_9 小时前
Claude Code 使用指南:高频命令、快捷键、核心功能与实战技巧详解
agent·ai编程·claude
后端小肥肠10 小时前
漫画工坊续篇 | Coze+Skill 实现老纪漫画完整制作全流程
人工智能·aigc·agent
渣渣苏12 小时前
硬核拆解 HNSW:亿级向量如何实现毫秒级召回?(下篇:实战调参与工程优化)
人工智能·算法·agent·向量数据库·hnsw·智能体
小李子呢021112 小时前
什么是Skills?
agent
Joseph Cooper13 小时前
生产级 AI Agent 评估体系:从 12 指标框架到持续评估闭环
人工智能·ai·agent·eval·harness