论文精读之BERT

目录

1.摘要(Abstract)

2.引言(Introduction):

3.结论(Conlusion):

4.BERT模型算法:

5.总结


1.摘要(Abstract)

与别的文章的区别是什么:BERT是用来设计去训练深的 双向的 表示,使用没有标号的数据,再联合左右的上下文信息。(改进在什么地方)

效果有多好:在11个NLP任务上取得了很好的效果。需要讲清绝对精读以及相对精读。(结果好在哪)

2.引言(Introduction):

语言模型的简单介绍:1.建模这些句子之间的关系 2.实体命名的识别

摘要第一段的扩充:用预训练模型做特征表示的时候,使用的两种策略:基于特征与基于微调

主要想法:

如何解决所遇到的问题: BERT是用来减轻之前提到过的语言模型,选用一种带掩码的语言模型(masked language model )

贡献点:双向信息的重要性(句子从左看到右,从右看到左)、在BERT上做微调效果很好、代码开源

3.结论(Conlusion):

无监督的预训练很重要(在计算机视觉领域,在没有标签的数据集上做训练比在有标签的数据集上做训练效果会更好);主要贡献是将这些发现进一步推广到深度双向架构,使相同的预训练模型能够成功处理一系列的 NLP 任务。

4.BERT模型算法:

BERT中的两个步骤:

预训练:在预训练里面,BERT模型是在一个没有标号的数据上进行训练的

微调:在微调时同样适用一个BERT模型,在它的权重就是被初始化成我们在预训练中间得到的那个权重,所有的权重在微调时都会被参与训练(用的是有标号的数据)。

预训练与微调之间不一样的部分:

预训练中两个关键的东西:目标函数与做预训练的数据

BERT的架构:

就是一个多层的transformer的编码器

5.总结

在本篇论文的结论中最大贡献是双向性 (在写一篇论文的时候,最好有一个卖点,而不是这里好那里也好)。

选了选双向性带来的不好是什么?做一个选择会得到一些,也会失去一些。

缺点是:与GPT(Improving Language Understanding by Generative Pre-Training)比,BERT用的是编码器,GPT用的是解码器。BERT做机器翻译、文本的摘要(生成类的任务)不好做。

但分类问题在NLP中更常见。

完整解决问题的思路:在一个很大的数据集上训练好一个很宽很深的模型,可以用在很多小的问题上,通过微调来全面提升小数据的性能(在计算机视觉领域用了很多年),模型越大,效果越好(很简单很暴力)。

相关推荐
程序员cxuan21 小时前
虽迟但到!GPT-5.6 终于来了!
人工智能·后端·程序员
ZhengEnCi1 天前
Q03-UI设计进阶技巧-让界面更高级的7个核心原则
人工智能
IT_陈寒1 天前
React的这个渲染问题连官方文档都没说清楚
前端·人工智能·后端
不加辣椒1 天前
第12章 工具调用与 Agent 提示工程
人工智能
用户1693176172661 天前
前端给AI消息做日期分组与时间线
人工智能
i晟1 天前
Claude Code Harness 深度拆解:从你敲回车到模型回复,中间发生了什么
人工智能
用户252736278141 天前
【踩坑复盘】我在本地跑 RAG 知识库时踩了 5 个大坑,吐血整理避坑指南
人工智能
大模型真好玩1 天前
LangChain DeepAgents 速通指南(九)—— 生产级智能体框架 DeepAgents Code 源码导读
人工智能·langchain·agent
用户018349301691 天前
用Zustand管理AI多会话状态
人工智能
武子康1 天前
调查研究-198 Agent 到底该记住什么?读懂《What Must Generalist Agents Remember?》
人工智能·openai·agent