【大模型】happy-llm笔记

happy-llm是datawhale发布的一套关于llm的教程,链接在此,今天看了这套课程的第二章到第四章的内容,对自己一直以来好奇的一些llm相关的问题有了解答。

将我遇到的问题整理到下面,部分可能没有回答,感兴趣的同学可以去原课程查找。

  1. 为什么注意力机制里有一个softmax,能否用其他函数代替?
    因为注意力想表征的是某个token(Q)对每个token的相关性,也即应该用一个概率分布或加权求和来表示,因此使用类似于 x i ∑ i x i \frac{x_i}{\sum_i x_i} ∑ixixi的形式表示,至于用softmax,是因为其在概率分布的基础上用自然指数来凸显强相关。
  2. 什么是自注意力?如何理解"自"
  3. 什么是多头注意力,为什么向量内积的拼接和向量拼接的内积效果相同?
  4. 为什么mask是一个矩阵,attention相对于RNN提升并行性的措施有哪些?
    RNN的线性性体现在不知道未来的信息,而这可以通过一个mask得到解决
  5. 为什么GPT和LLM使用的很多都是Decoder-only结构,这有什么原因?
  6. LLAMA是什么,和GPT有什么区别?
相关推荐
sheeta19987 小时前
LeetCode 每日一题笔记 日期:2025.12.17 题目:3573.买卖股票的最佳时机Ⅴ
笔记·算法·leetcode
走在路上的菜鸟7 小时前
Android学Dart学习笔记第十九节 类-混入Mixins
android·笔记·学习·flutter
AI大模型7 小时前
大模型AI Agent 小白科研路线规划:从入门到精通!(含Agent学习资源)
程序员·llm·agent
算法与双吉汉堡8 小时前
【短链接项目笔记】Day1 用户模块
java·spring boot·笔记·后端
visnix8 小时前
AI大模型原理剖析和实战(第四部分:后训练与微调)
llm·aigc
大白的编程日记.8 小时前
【计算网络学习笔记】TCP套接字介绍和使用
网络·笔记·学习
前端阿森纳8 小时前
从五个关键维度重新审视 RAG 架构设计
llm·aigc·ai编程
深蓝海拓8 小时前
PySide6从0开始学习的笔记(七) 控件(Widget)之文字输入类控件
笔记·python·qt·学习·pyqt
重生之我在番茄自学网安拯救世界8 小时前
网络安全中级阶段学习笔记(八):upload靶场实战(1-13关)-文件上传漏洞绕过1
笔记·学习·网络安全·文件上传漏洞·靶场实战