【大模型】happy-llm笔记

happy-llm是datawhale发布的一套关于llm的教程,链接在此,今天看了这套课程的第二章到第四章的内容,对自己一直以来好奇的一些llm相关的问题有了解答。

将我遇到的问题整理到下面,部分可能没有回答,感兴趣的同学可以去原课程查找。

  1. 为什么注意力机制里有一个softmax,能否用其他函数代替?
    因为注意力想表征的是某个token(Q)对每个token的相关性,也即应该用一个概率分布或加权求和来表示,因此使用类似于 x i ∑ i x i \frac{x_i}{\sum_i x_i} ∑ixixi的形式表示,至于用softmax,是因为其在概率分布的基础上用自然指数来凸显强相关。
  2. 什么是自注意力?如何理解"自"
  3. 什么是多头注意力,为什么向量内积的拼接和向量拼接的内积效果相同?
  4. 为什么mask是一个矩阵,attention相对于RNN提升并行性的措施有哪些?
    RNN的线性性体现在不知道未来的信息,而这可以通过一个mask得到解决
  5. 为什么GPT和LLM使用的很多都是Decoder-only结构,这有什么原因?
  6. LLAMA是什么,和GPT有什么区别?
相关推荐
晓幂5 小时前
【2025】HECTF
笔记·学习·web安全
做cv的小昊6 小时前
【TJU】信息检索与分析课程笔记和练习(8)(9)发现系统和全文获取、专利与知识产权基本知识
大数据·笔记·学习·全文检索·信息检索
hkNaruto7 小时前
【AI】AI学习笔记:MCP协议与gRPC、OpenAPI的差异
人工智能·笔记·学习
秉承初心7 小时前
ModelEngine 就像搭积木:技术原理是零件,选型案例是说明书
ai·大模型·modelengine
九成宫8 小时前
计算机网络期末复习——第2章:应用层 Part One
笔记·计算机网络·软件工程
半夏知半秋8 小时前
rust学习-闭包
开发语言·笔记·后端·学习·rust
你喜欢喝可乐吗?8 小时前
FastAPI 入门笔记
笔记·fastapi
二进制_博客9 小时前
SpringAI智能助手案例
大模型·springai
hkNaruto9 小时前
【AI】AI学习笔记:A2A(智能体协作)入门指南:从概念到实践
人工智能·笔记·学习
yj_sharing10 小时前
动手学深度学习softmax回归的笔记
笔记·深度学习·回归