大模型训练_week3_day15_Llama概念_《穷途末路》

前言

碎碎念：我翻山越岭，纵然这世间再也无人像你

梳理llama架构，和transformer很像，新学到 embedding后的词向量RMSnorm，和qk矩阵融合的Rope旋转编码，SwiGLU激活函数，GQA分组查询注意力机制

l和l组合的概率高，所以把它重新组成为一个ll的词元

比如 it's 42! it, 's , 42, !

在自然语言处理中的 BPE 分词器的工作原理如下：

初始化 ：首先，将所有词汇表中的单词分解为单个字符或符号。例如，单词 "hello" 会被表示为 ["h", "e", "l", "l", "o"]。
统计频率：接下来，统计所有字符对（相邻字符组合）的出现频率。例如，如果 "l" 和 "l" 出现在一起的频率最高，那么它们会被作为一个新的词元 "ll"。
合并频率最高的字符对：将出现频率最高的字符对合并成一个新的词元。然后重复这个过程，直到达到预定义的词元数量或不能再合并为止。
生成词汇表：最终生成的词汇表包含了从单个字符到更复杂的子词的所有词元，这些词元可以组合成原始的单词和短语。