论文精读之BERT

目录

1.摘要(Abstract)

2.引言(Introduction):

3.结论(Conlusion):

4.BERT模型算法:

5.总结


1.摘要(Abstract)

与别的文章的区别是什么:BERT是用来设计去训练深的 双向的 表示,使用没有标号的数据,再联合左右的上下文信息。(改进在什么地方)

效果有多好:在11个NLP任务上取得了很好的效果。需要讲清绝对精读以及相对精读。(结果好在哪)

2.引言(Introduction):

语言模型的简单介绍:1.建模这些句子之间的关系 2.实体命名的识别

摘要第一段的扩充:用预训练模型做特征表示的时候,使用的两种策略:基于特征与基于微调

主要想法:

如何解决所遇到的问题: BERT是用来减轻之前提到过的语言模型,选用一种带掩码的语言模型(masked language model )

贡献点:双向信息的重要性(句子从左看到右,从右看到左)、在BERT上做微调效果很好、代码开源

3.结论(Conlusion):

无监督的预训练很重要(在计算机视觉领域,在没有标签的数据集上做训练比在有标签的数据集上做训练效果会更好);主要贡献是将这些发现进一步推广到深度双向架构,使相同的预训练模型能够成功处理一系列的 NLP 任务。

4.BERT模型算法:

BERT中的两个步骤:

预训练:在预训练里面,BERT模型是在一个没有标号的数据上进行训练的

微调:在微调时同样适用一个BERT模型,在它的权重就是被初始化成我们在预训练中间得到的那个权重,所有的权重在微调时都会被参与训练(用的是有标号的数据)。

预训练与微调之间不一样的部分:

预训练中两个关键的东西:目标函数与做预训练的数据

BERT的架构:

就是一个多层的transformer的编码器

5.总结

在本篇论文的结论中最大贡献是双向性 (在写一篇论文的时候,最好有一个卖点,而不是这里好那里也好)。

选了选双向性带来的不好是什么?做一个选择会得到一些,也会失去一些。

缺点是:与GPT(Improving Language Understanding by Generative Pre-Training)比,BERT用的是编码器,GPT用的是解码器。BERT做机器翻译、文本的摘要(生成类的任务)不好做。

但分类问题在NLP中更常见。

完整解决问题的思路:在一个很大的数据集上训练好一个很宽很深的模型,可以用在很多小的问题上,通过微调来全面提升小数据的性能(在计算机视觉领域用了很多年),模型越大,效果越好(很简单很暴力)。

相关推荐
飞哥数智坊28 分钟前
别再组团队了,AI时代一个人就能创业
人工智能·创业
严文文-Chris1 小时前
GPT5的Test-time compute(测试时计算)是什么?
人工智能
Java中文社群1 小时前
白嫖ClaudeCode秘籍大公开!超详细
人工智能·后端
MicrosoftReactor1 小时前
技术速递|使用 AI 应用模板扩展创建一个 .NET AI 应用与自定义数据进行对话
人工智能·.net
迪菲赫尔曼2 小时前
大模型入门实战 | 基于 YOLO 数据集微调 Qwen2.5-VL-3B-Instruct 的目标检测任务
人工智能·yolo·目标检测·大模型·微调·新手入门·qwen2.5
MARS_AI_2 小时前
云蝠智能 Voice Agent:多语言交互时代的AI智能语音呼叫
人工智能·自然语言处理·交互·语音识别
THMAIL3 小时前
深度剖析Spring AI源码(七):化繁为简,Spring Boot自动配置的实现之秘
人工智能·spring boot·spring
机器之心4 小时前
谷歌nano banana正式上线:单图成本不到3毛钱,比OpenAI便宜95%
人工智能·openai
兰亭妙微4 小时前
从线到机:AI 与多模态交互如何重塑 B 端与 App 界面设计
人工智能·小程序·交互·用户体验设计公司