Bert浅谈

优点

首先,bert的创新点在于利用了双向transformer,这就跟openai的gpt有区别,gpt是采用单向的transformer,而作者认为双向transformer更能够融合上下文的信息。这里双向和单向的区别在于,单向只跟当前位置之前的tocken相连,双向与当前位置之后的tocken也有连接。跟ELMo相比的优势在于,transformer对特征的提取能力比lstm要强得多。

模型输入

首先是对输入的句子做tocken embedding,也就是将句子映射为一维向量,可以是word2vec的结果,猜想一下,如果不是维度过高也可以是one-hot,第二部分segment embedding 是在模型训练过程中自动学习得到的,猜想这里可以用全连接,也可以用transformer,最后是position embedding,主要用以区别"我喜欢妈妈"和"妈妈喜欢我",虽然这两句话的单词一样,但是因为位置不同,所以含义不同。

模型参数

BERTBASE (L=12, H=768, A=12, Total Parameters=110M)

BERTLARGE (L=24, H=1024,

A=16, Total Parameters=340M).

L表示层数,H为隐层维度,A为注意力头的数量

两种任务

Masked LM

这个任务主要是随机将某句话的某几个位置做处理,这里的处理可能是3种,80%的概率用[mask]代替,10%的概率保留原来的单词,10%的概率用其他单词代替。就像是英语考试中的完形填空

Next Sentence Prediction (NSP)

主要利用输入的第一个tocken[cls]和中间的tocken[sep],其中cls用来表示后面一句是否为前一句的下一句,sep表示两个句子的间隔。从文本语料库中随机选择 50% 正确语句对和 50% 错误语句对进行训练。就像是与语文中的句子排序。

参考:BERT模型的详细介绍

相关推荐
明明如月学长2 分钟前
全网最火的 Agent Skills 都在这了!这 7 个宝藏市场建议收藏
人工智能
猫头虎3 分钟前
如何使用Docker部署OpenClaw汉化中文版?
运维·人工智能·docker·容器·langchain·开源·aigc
njsgcs4 分钟前
输入图片,点击按钮,返回下一个state的图片,llm给标签,循环,能训练出按钮对应的标签吗
人工智能
啊森要自信8 分钟前
CANN runtime 深度解析:异构计算架构下运行时组件的性能保障与功能增强实现逻辑
深度学习·架构·transformer·cann
Aric_Jones8 分钟前
如何在网站中接入 AI 智能助手
人工智能
m0_5711866013 分钟前
第三十四周周报
人工智能
AI资源库13 分钟前
microsoftVibeVoice-ASR模型深入解析
人工智能·语言模型
jarvisuni14 分钟前
开发“360安全卫士”,Opus4.6把GPT5.3吊起来打了?!
人工智能·gpt·ai编程
kyle~15 分钟前
深度学习---长短期记忆网络LSTM
人工智能·深度学习·lstm
xrgs_shz15 分钟前
什么是LLM、VLM、MLLM、LMM?它们之间有什么关联?
人工智能·计算机视觉