项目之 头满分_3Bert

1. 回顾 :第一期选择了RF随机森林,做完之后效果83.74;

第二期选择了方案中选择了轻量化的 FastText,效果远超预期,从83.74%左右调到字符级别分词的效果是91.65%;虽然提升很大,但还是有很大的优化空间,所以有了第三期项目;

(分类任务算是最简单的任务,对其一般要求都很高,一般都是四个9(9999):即99.99%,工作中91.65%肯定不是最好的,至少要优化到95%以上,尽量减少误差;)

第三期:使用Bert;

2. Transformer理解

Transformer由四部分构成:输入、输出、编码器、解码器;输入包括:token embedding ➕ PE(Position Encoding位置编码,BERT的3个embedding中有一个是Position embedding位置嵌入 ),这里偶数位(0 2 4 6 8)用正弦、奇数位用余弦;面试时重点介绍:① 带掩码的多头自注意力,它适合做生成任务,因为后面的内容被掩盖掉了,根据前面的预测后面的;如今的大模型叫做 生成式AI,所以现在大模型几乎都使用纯Decoder-only;(面试题:为什么现在大模型都用Decoder-only? :因为如今的大模型叫做 生成式AI,Decoder本身是带有掩码的多头自注意力,后面的内容被掩盖掉了,根据前面的内容预测后面的,适合做生成任务);② 多头自注意力机制(2018年谷歌颠覆性的提出自注意力机制),公式:QKT/根号dk再进行softmax,再乘以V;(面试题:注意力体现在公式中的哪一块? :Softmax后的这一部分;因为softmax后是概率值,V相当于答案,在答案上给定概率值,哪个概率值高,就关注哪个地方、哪个概率值低,默认可以忽视:(对于QKV:Q-Query是问题、V-Value是答案、中间的K-Key是提示信息即 通过Key的提示把Query的问题回答成Value);③ PE (Position Encoding位置编码,BERT的3个embedding中有一个是Position embedding位置嵌入 ),这里偶数位(0 2 4 6 8)用正弦、奇数位用余弦 ??

3. BERT理解

BERT用到Encoder结构,由12个encoder堆叠而成叫base、由24个个encoder堆叠而成叫large。(面试题:主要说出Bert核心是encoder的堆叠,多少个encoder堆叠?多头注意力多少?加上embedding_dim词嵌入维度是多大?这三点。:Bert的网络结构有堆叠了12层encoder、**多头注意力的头数是多少??**embedding_dim 词嵌入维度有768维(现在用的多的1024、2048)

如下Bert架构图:Bert的基础构建块 即通过 BertLayer块进行堆叠,堆叠了12个;

相关推荐
财经资讯数据_灵砚智能3 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月16日
人工智能·python·ai·信息可视化·自然语言处理·ai编程·灵砚智能
财经资讯数据_灵砚智能13 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月14日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
叫我:松哥16 小时前
基于机器学习的中文文本抑郁症风险检测系统,包括NLP与传统机器学习的抑郁症识别,准确率92%
人工智能·深度学习·机器学习·自然语言处理·flask·nlp·bootstrap
troubles maker20 小时前
LoRA: Low-Rank Adaptation of Large Language Models
语言模型·自然语言处理·lora·大模型·peft
nbtang202620 小时前
小型语言模型(SLM)调研:从端侧部署到专业化 Agent
人工智能·语言模型·自然语言处理
大模型最新论文速读21 小时前
06-15 · LLM 最新论文速览
论文阅读·人工智能·深度学习·自然语言处理
workflower1 天前
互联网与大数据环境下制造服务模式
人工智能·自然语言处理·数据挖掘·自动驾驶·动态规划·制造
财经资讯数据_灵砚智能1 天前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月15日
大数据·人工智能·python·信息可视化·自然语言处理
Jump 不二1 天前
从 CV 扩散到 NLP:详解 Google DiffusionGemma 架构、推理机制与优劣
人工智能·深度学习·自然语言处理