BERT论文阅读

一.前情提要

1.本文理论为主,并且仅为个人理解,能力一般,不喜勿喷

2.本文理论知识较为成体系

3.如有需要,以下是原文,更为完备

BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili

二.正文

1.前言:

①BERT是一种基于Transformer架构的预训练语言模型。

②NLP(即自然语言处理)是人工智能领域的一个重要分支,旨在使计算机能够理解、解释和生成自然语言文本。NLP涉及处理人类语言的各个层面,包括语义理解、语法分析、语言生成等。

2.与ELMO、GPT的区别(因为是在这两篇的基础上发展的)

细节(1)--->区别

①训练深得双向的表示(运用了右侧和左侧的信息),而GPT是单向的

②ELMO运用的RNN而BERT运用的是Transformer,故ELMO与用到下游的时候要调整结构而BERT就只用调整最上层--->与GPT是一样的。

细节(2)--->优势

①绝对精度提高7.7%

(ps:BERT本身并没有一个绝对的精度,因为它是一个预训练的模型,其性能取决于具体任务和数据集,但是一些标准的基准数据集上,BERT和其变种通常能够达到非常高的精度。例如,在GLUE上)

3.流程

①普遍流程:语言预训练可以提升自然语言任务:如:句子之间的关系(如:情绪),词源层面输出(如:实体命名)

②预训练策略:(1)基于特征(ELMO):将学到的特征和输入一起放进去

(2)基于微调(GPT):将权重放在下游,最后微调(并且从左到右读句子)

----------->均使用单项的语言模型

③作者新想法:读句子从左到右与从右到左并行

操作:

(1)用带掩码的语言模型(MLM):简而言之是进行句子挖空让机器来预测或着预测两个句子是不是相邻的

(2)好处:1.双向 2.微调 3.直接引用代码

(3)证明了在没有标号的大量数据集训练模型比有标号的小量数据集训练模型(前人常用比如:ImageNet)效果好

4.算法

①预训练:在没有标号的大量数据集训练

②微调:使用预训练中的权重用的是有标号的数据集

(预训练)

③调参:

(1)transformer的块的个数

(2)隐藏层的大小

(3)自注意力机制的头的个数

(自注意力机制用于序列数据处理的机制,最初引入于Transformer模型中。它允许模型在处理序列数据时,动态地给不同位置的输入赋予不同的注意力权重,从而更有效地捕捉序列中的长距离依赖关系。)

④处理句子

(1)切词:得子序列 (示例如下)

(2)两个句子合在一起仍然可以区分

(3)掩码是占15%----->80%概率真替换 10%概率随机词源 10%概率什么都不干(因为微调不会有掩码)

(示例如下)

(4)正例和负例 (示例如下

5.缺点

①用了Adam的残缺版--->有影响

②训练轮数小

相关推荐
小雨下雨的雨3 分钟前
井字棋AI机器人实现详解 - Minimax算法实战-鸿蒙PC Electron框架完成
前端·人工智能·算法·华为·electron·鸿蒙
我没胡说八道3 小时前
高校论文AI检测优化工具对比研究与实测分析(2026)
人工智能·深度学习·机器学习·计算机视觉·aigc·论文
秦亚伟3 小时前
AI浪潮重塑融资租赁行业新格局
人工智能
love530love3 小时前
LiveTalking 数字人项目 Windows 部署完全指南(EPGF 架构)
人工智能·windows·python·架构·livetalking·epgf
元启数宇3 小时前
喷淋AI布点实战:8小时人工布点→20分钟自动出图
人工智能
哈哈,柳暗花明3 小时前
人工智能专业术语详解(H)
人工智能·专业术语
圣殿骑士-Khtangc3 小时前
AI 编程工具 2026 实战横评:Cursor 3 vs Claude Code vs Copilot,开发者选型完全指南
人工智能·copilot
云器科技3 小时前
云器Lakehouse 2026年5月版本发布:拥抱 AI Agent,重塑数据智能开发新范式
人工智能
小鹰-上海鹰谷-电子实验记录本3 小时前
第六届党建引领科创生态座谈会 | 邓光辉博士出席分享AI赋能创新药科研新范式
人工智能·ai·电子实验记录本·药企合规
极客老王说Agent3 小时前
2026电信IDC机房巡检深度报告:人工巡检频次和深度够吗?实在Agent重塑智慧运维新范式
人工智能·ai·chatgpt