Bert浅谈

优点

首先,bert的创新点在于利用了双向transformer,这就跟openai的gpt有区别,gpt是采用单向的transformer,而作者认为双向transformer更能够融合上下文的信息。这里双向和单向的区别在于,单向只跟当前位置之前的tocken相连,双向与当前位置之后的tocken也有连接。跟ELMo相比的优势在于,transformer对特征的提取能力比lstm要强得多。

模型输入

首先是对输入的句子做tocken embedding,也就是将句子映射为一维向量,可以是word2vec的结果,猜想一下,如果不是维度过高也可以是one-hot,第二部分segment embedding 是在模型训练过程中自动学习得到的,猜想这里可以用全连接,也可以用transformer,最后是position embedding,主要用以区别"我喜欢妈妈"和"妈妈喜欢我",虽然这两句话的单词一样,但是因为位置不同,所以含义不同。

模型参数

BERTBASE (L=12, H=768, A=12, Total Parameters=110M)

BERTLARGE (L=24, H=1024,

A=16, Total Parameters=340M).

L表示层数,H为隐层维度,A为注意力头的数量

两种任务

Masked LM

这个任务主要是随机将某句话的某几个位置做处理,这里的处理可能是3种,80%的概率用mask代替,10%的概率保留原来的单词,10%的概率用其他单词代替。就像是英语考试中的完形填空

Next Sentence Prediction (NSP)

主要利用输入的第一个tockencls和中间的tockensep,其中cls用来表示后面一句是否为前一句的下一句,sep表示两个句子的间隔。从文本语料库中随机选择 50% 正确语句对和 50% 错误语句对进行训练。就像是与语文中的句子排序。

参考:BERT模型的详细介绍

相关推荐
志栋智能10 小时前
超自动化巡检:降低运维总成本(TCO)的有效路径
大数据·运维·网络·人工智能·自动化
慧海灵舟10 小时前
阿里 AgenUI 开源库前后端实战教程 —— Day 2:后端接入 Spring AI Alibaba & 鸿蒙端引入 AgenUI
人工智能·spring·开源·写文章,赢小鸿ai
贺国亚10 小时前
Agent 设计 / 伪代码 / 开发部署与使用指南
人工智能
码农小白AI10 小时前
AI报告审核与IACheck:自动化检测全面铺开后,为什么报告审核反而成了新的效率瓶颈?
大数据·人工智能·自动化
土拨鼠烧电路10 小时前
第7章:新主宰——世界坍缩为对话框
人工智能
数智顾问10 小时前
(133页PPT)数据中心基础设施规划设计(附下载方式)
大数据·数据库·人工智能
2601_9571909010 小时前
原厂稳交付,玻璃剧场打造文旅长效增收新业态
大数据·人工智能
学术头条10 小时前
手机上跑MoE?Meta提出MobileMoE,iPhone 16 Pro提速3.8倍
人工智能·科技·机器学习·ai·智能手机·agi
aihuangwu10 小时前
AI导出鸭|ChatGPT与Gemini生成Word文档技术实操
人工智能·ai·chatgpt·word·deepseek·ai导出鸭