transformer知识补足

今天DeepSeek-V4预览版上线了,同时官方还给出了其技术报告。看了几页发现知识真的是学而不思就很容易忘记,故在此结合技术报告温习、学习一些transformer以及LLM的概念。

  • KV Cache:在Transformer 逐 token 生成回答时,每次只产生一个新 token,但为了计算这个新 token 与历史所有 token 的关系,需要存储之前每个 token 的 Key 和 Value,类似于键值对

  • Token交互:在 Transformer 的注意力机制中,每个token之间的"交流"是通过计算相关性分数完成的,随后会两两计算并给出一个加权融合的信息,正是这种交流方式导致了O(n²)

  • 局部视野 / 近邻盲区:在注意力变体中,由于进行了压缩的操作,很多token之间本来紧密挨着的部分因为融合消失了,此时就引入滑动窗口,令其关注未被压缩的相邻token,从而使其不至于忽略掉局部信息

  • 全词表 logit 蒸馏:让学生模型去学习专家模型各个领域的能力,本质上是把这些模型关于词表的预测概率分布给学生模型学习,令其在这些词上输出的概率分布尽可能地靠近每个专家领域

  • KL散度:把上文中提到的专家模型的概率分布比喻成一张图,学生模型的分布比喻成另一张图,KL 散度就是计算这两张图的"形状有多不一样"。数值越小,说明学生模仿得越好。而反向 KL 散度则会特别惩罚学生"低估"了老师分布里本来就很高的区域,从而避免"只学一半",在后训练中,DeepSeek‑V4 用最小化学生与老师之间的反向 KL 散度来更新学生模型,强迫学生认真模仿老师的全部输出概率。

  • 双随机矩阵:满足两个条件的矩阵:所有元素都是非负数以及每一行的和 = 1,每一列的和 = 1。这样的结构保证了不过中间过程怎么样,分布怎么样,输出输入依然保持一致。

相关推荐
阿里云云原生1 小时前
Agent = Model + Harness 是伪命题?企业级 Agent 落地必须补齐的“约束基建”
agent
Code_Artist1 小时前
🦜用 GoAI 从零打造一个 AI Agent 脚手架工程:重新定义智能体开发范式!
go·agent·ai编程
SelectDB1 小时前
2026 SelectDB AI 产品发布会:Agent Native 数据基础设施能力全景发布
数据分析·aigc·agent
阿里云云原生2 小时前
Stripe、Ramp、Coinbase 都在用的 Coding Agent 架构,究竟有何奥秘?
agent
Awu12272 小时前
⚡从零开发 Agent CLI(一):项目初始化与工程基建
aigc·agent
小七-七牛开发者3 小时前
Codex 实践系列 Vol.02:让 Codex 读懂开源项目 Typer
ai·chatgpt·openai·agent·工作流·codex·skill·ai coding
玉鸯3 小时前
给 Agent 装上记忆和手脚--从零搭建 RAG
agent
尽兴-3 小时前
4.1 智能体核心:Agent、Sub-Agent、ReAct、规划执行
前端·javascript·react.js·agent·react·subagent
chengliu05083 小时前
AI agent开发
agent
信也科技布道师FTE3 小时前
Agent Skills + Vibe Testing:构建人机协作的测试闭环
agent