LLaMA论文阅读笔记论文:https://arxiv.org/pdf/2302.139711、为什么要做这个研究(理论走向和目前缺陷) ? 之前的效果的模型要么不开源,要么用了私有数据训练,完全开源的效果都不咋地。 2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ? 用完全开源的数据(1.4万亿tokens),并没有大的离谱模型(7B到65B), 做了一系列前面研究做的优化,如RMSNorm的Pre-normalization减少计算量,FFN的激活函数替换为SwiGLU增强表现能力更好,旋转位置编码RoPE提升模型