论文阅读——BERT

ArXiv:https://arxiv.org/abs/1810.04805

github:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT

一、模型及特点:

1、模型:

深层双向transformer encoder结构

BERT-BASE:(L=12, H=768, A=12)

BERT-LARGE:(L=24, H=1024, A=16)

2、特点:

不同任务使用统一架构,预训练和微调只有很小不同

双向预训练模型------通过训练MLM子任务获得

二、训练:两阶段训练------预训练和微调

1、预训练:

(1)训练设置

1)在无标签、不同任务上训练

2)训练两个子任务:Masked LM(MLM),Next Sentence Prediction (NSP)

MLM:为了双向模型

损失函数:cross entropy loss

mask:随机选择15%的位置,被选择的位置有80%mask,10%随机token,10%unchanged。训练中位置不变,但是由于每个句子不一样,所以预测的token也不是每次都一样。

NSP:为了理解句子关系

(2)数据:

BooksCorpus (800M words)、English Wikipedia (2,500M words) extract only the text passages and ignore lists, tables, and headers.

2、微调:

预训练参数初始化,针对不对任务在有标签数据的所有参数微调,不同任务各自单独微调。

三、实验:

1、数据:

GLUE、SQuAD v1.1(问答。损失函数-最大似然,首先在TriviaQA上微调,然后在SQuAD 上微调)、SQuAD v2.0(没有在TriviaQA上微调)、The Situations With Adversarial Generations (SWAG)

相关推荐
一只在学习的瓶子1 小时前
【大模型 AI 学习】大模型 AI 部署硬件配置方案(本地硬件配置 | 在线GPU)
深度学习·阿里云·ai
HyperAI超神经2 小时前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
Eric.Lee20212 小时前
数据集-目标检测系列- 螃蟹 检测数据集 crab >> DataBall
python·深度学习·算法·目标检测·计算机视觉·数据集·螃蟹检测
DogDaoDao3 小时前
【预备理论知识——2】深度学习:线性代数概述
人工智能·深度学习·线性代数
牛哥带你学代码3 小时前
交叠型双重差分法
人工智能·深度学习·机器学习
深度学习实战训练营4 小时前
基于keras的停车场车位识别
人工智能·深度学习·keras
菜就多练_08285 小时前
《深度学习》OpenCV 摄像头OCR 过程及案例解析
人工智能·深度学习·opencv·ocr
没有余地 EliasJie5 小时前
Windows Ubuntu下搭建深度学习Pytorch训练框架与转换环境TensorRT
pytorch·windows·深度学习·ubuntu·pycharm·conda·tensorflow
技术无疆6 小时前
【Python】Streamlit:为数据科学与机器学习打造的简易应用框架
开发语言·人工智能·python·深度学习·神经网络·机器学习·数据挖掘
用户44168252622526 小时前
Unet模型实现细胞图像分割和计数(keras)
深度学习