【大模型】happy-llm笔记

被制作时长两年半的个人练习生2025-12-18 11:09

happy-llm是datawhale发布的一套关于llm的教程，链接在此，今天看了这套课程的第二章到第四章的内容，对自己一直以来好奇的一些llm相关的问题有了解答。

将我遇到的问题整理到下面，部分可能没有回答，感兴趣的同学可以去原课程查找。

为什么注意力机制里有一个softmax，能否用其他函数代替？
因为注意力想表征的是某个token（Q）对每个token的相关性，也即应该用一个概率分布或加权求和来表示，因此使用类似于 x i ∑ i x i \frac{x_i}{\sum_i x_i} ∑ixixi的形式表示，至于用softmax，是因为其在概率分布的基础上用自然指数来凸显强相关。
什么是自注意力？如何理解"自"
什么是多头注意力，为什么向量内积的拼接和向量拼接的内积效果相同？
为什么mask是一个矩阵，attention相对于RNN提升并行性的措施有哪些？
RNN的线性性体现在不知道未来的信息，而这可以通过一个mask得到解决
为什么GPT和LLM使用的很多都是Decoder-only结构，这有什么原因？
LLAMA是什么，和GPT有什么区别？