transformer知识补足

今天DeepSeek-V4预览版上线了,同时官方还给出了其技术报告。看了几页发现知识真的是学而不思就很容易忘记,故在此结合技术报告温习、学习一些transformer以及LLM的概念。

  • KV Cache:在Transformer 逐 token 生成回答时,每次只产生一个新 token,但为了计算这个新 token 与历史所有 token 的关系,需要存储之前每个 token 的 Key 和 Value,类似于键值对

  • Token交互:在 Transformer 的注意力机制中,每个token之间的"交流"是通过计算相关性分数完成的,随后会两两计算并给出一个加权融合的信息,正是这种交流方式导致了O(n²)

  • 局部视野 / 近邻盲区:在注意力变体中,由于进行了压缩的操作,很多token之间本来紧密挨着的部分因为融合消失了,此时就引入滑动窗口,令其关注未被压缩的相邻token,从而使其不至于忽略掉局部信息

  • 全词表 logit 蒸馏:让学生模型去学习专家模型各个领域的能力,本质上是把这些模型关于词表的预测概率分布给学生模型学习,令其在这些词上输出的概率分布尽可能地靠近每个专家领域

  • KL散度:把上文中提到的专家模型的概率分布比喻成一张图,学生模型的分布比喻成另一张图,KL 散度就是计算这两张图的"形状有多不一样"。数值越小,说明学生模仿得越好。而反向 KL 散度则会特别惩罚学生"低估"了老师分布里本来就很高的区域,从而避免"只学一半",在后训练中,DeepSeek‑V4 用最小化学生与老师之间的反向 KL 散度来更新学生模型,强迫学生认真模仿老师的全部输出概率。

  • 双随机矩阵:满足两个条件的矩阵:所有元素都是非负数以及每一行的和 = 1,每一列的和 = 1。这样的结构保证了不过中间过程怎么样,分布怎么样,输出输入依然保持一致。

相关推荐
前端不太难2 小时前
AgentTeam注入:OpenClaw如何破解串行任务灾难
状态模式·agent·openclaw
维元码簿2 小时前
Claude Code 深度拆解:工具系统——30+ 内置工具地图与 MCP / Skills 协作
ai·agent·claude code·ai coding
花千树-0102 小时前
ReAct 思考-行动-观察循环的底层实现机制
langchain·agent·react·ai编程·ai agent·langgraph·mcp
knight_9___2 小时前
RAG面试篇10
人工智能·python·机器学习·agent·rag
数智工坊3 小时前
【DETR论文阅读】端到端目标检测新范式:Transformer改写检测 pipeline
论文阅读·目标检测·transformer
ACCELERATOR_LLC3 小时前
【DataWhale组队学习】DIY-LLM Task4 GPU和GPU相关的优化
人工智能·深度学习·大模型·transformer·gpu
knight_9___3 小时前
RAG面试篇11
java·面试·职场和发展·agent·rag·智能体
菜鸟‍14 小时前
【CVPR 2026】LitePT:更轻、更强的点云 Transformer【论文学习】
深度学习·学习·transformer
倔强的石头_15 小时前
高吞吐+免配置!腾讯云轻量的 Hermes Agent部署指南
agent