项目之头满分_3Bert

1. 回顾 ：第一期选择了RF随机森林，做完之后效果83.74；

第二期选择了方案中选择了轻量化的 FastText，效果远超预期，从83.74%左右调到字符级别分词的效果是91.65%；虽然提升很大，但还是有很大的优化空间，所以有了第三期项目；

（分类任务算是最简单的任务，对其一般要求都很高，一般都是四个9（9999）：即99.99%，工作中91.65%肯定不是最好的，至少要优化到95%以上，尽量减少误差；）

第三期：使用Bert；

2. Transformer理解 ：

Transformer由四部分构成：输入、输出、编码器、解码器；输入包括：token embedding ➕ PE(Position Encoding位置编码，BERT的3个embedding中有一个是Position embedding位置嵌入 )，这里偶数位(0 2 4 6 8)用正弦、奇数位用余弦；面试时重点介绍：① 带掩码的多头自注意力，它适合做生成任务，因为后面的内容被掩盖掉了，根据前面的预测后面的；如今的大模型叫做生成式AI，所以现在大模型几乎都使用纯Decoder-only；（面试题：为什么现在大模型都用Decoder-only？ ：因为如今的大模型叫做生成式AI，Decoder本身是带有掩码的多头自注意力，后面的内容被掩盖掉了，根据前面的内容预测后面的，适合做生成任务）；② 多头自注意力机制（2018年谷歌颠覆性的提出自注意力机制），公式：QKT/根号dk再进行softmax，再乘以V；（面试题：注意力体现在公式中的哪一块？ ：Softmax后的这一部分；因为softmax后是概率值，V相当于答案，在答案上给定概率值，哪个概率值高，就关注哪个地方、哪个概率值低，默认可以忽视：（对于QKV：Q-Query是问题、V-Value是答案、中间的K-Key是提示信息即通过Key的提示把Query的问题回答成Value）；③ PE (Position Encoding位置编码，BERT的3个embedding中有一个是Position embedding位置嵌入 )，这里偶数位(0 2 4 6 8)用正弦、奇数位用余弦？？）

3. BERT理解 ：

BERT用到Encoder结构，由12个encoder堆叠而成叫base、由24个个encoder堆叠而成叫large。（面试题：主要说出Bert核心是encoder的堆叠，多少个encoder堆叠？多头注意力多少？加上embedding_dim词嵌入维度是多大？这三点。：Bert的网络结构有堆叠了12层encoder、**多头注意力的头数是多少？？**embedding_dim 词嵌入维度有768维（现在用的多的1024、2048）

如下Bert架构图：Bert的基础构建块即通过 BertLayer块进行堆叠，堆叠了12个；

项目之 头满分_3Bert

项目之头满分_3Bert