【大模型】happy-llm笔记

happy-llm是datawhale发布的一套关于llm的教程,链接在此,今天看了这套课程的第二章到第四章的内容,对自己一直以来好奇的一些llm相关的问题有了解答。

将我遇到的问题整理到下面,部分可能没有回答,感兴趣的同学可以去原课程查找。

  1. 为什么注意力机制里有一个softmax,能否用其他函数代替?
    因为注意力想表征的是某个token(Q)对每个token的相关性,也即应该用一个概率分布或加权求和来表示,因此使用类似于 x i ∑ i x i \frac{x_i}{\sum_i x_i} ∑ixixi的形式表示,至于用softmax,是因为其在概率分布的基础上用自然指数来凸显强相关。
  2. 什么是自注意力?如何理解"自"
  3. 什么是多头注意力,为什么向量内积的拼接和向量拼接的内积效果相同?
  4. 为什么mask是一个矩阵,attention相对于RNN提升并行性的措施有哪些?
    RNN的线性性体现在不知道未来的信息,而这可以通过一个mask得到解决
  5. 为什么GPT和LLM使用的很多都是Decoder-only结构,这有什么原因?
  6. LLAMA是什么,和GPT有什么区别?
相关推荐
The_superstar65 小时前
2026.4.28衡山派学习复习笔记
笔记·学习
随风,奔跑5 小时前
Git学习笔记
笔记·git·学习
YaBingSec5 小时前
玄机网络安全靶场:Apache HTTPD 解析漏洞(CVE-2017-15715)WP
java·笔记·安全·web安全·php·apache
OpenCSG5 小时前
Kimi K2.6:月之暗面发布的原生多模态智能体模型
人工智能·开源·大模型·ai技术·kimi k2.6
阿哟阿哟5 小时前
立创3D模型快速下载
笔记·单片机·嵌入式硬件
shehuiyuelaiyuehao5 小时前
关于md格式
笔记
Fleshy数模5 小时前
本地部署 Qwen2.5-1.5B-Instruct 全流程教程|Ollama + 魔搭双方案
python·语言模型·大模型·本地部署
CoderJia程序员甲6 小时前
GitHub 热榜项目 - 日榜(2026-04-28)
人工智能·ai·大模型·github·ai教程
阿Y加油吧6 小时前
二刷 LeetCode:300. 最长递增子序列 & 152. 乘积最大子数组 复盘笔记
笔记·算法·leetcode