为什么 Bert 的三个 Embedding 可以进行相加?

Embedding的本质

Embedding的数学本质,就是以one hot为输入的单层全连接。

也就是说,世界上本没什么Embedding,有的只是one hot。

现在我们将token,position,segment三者都用one hot表示,然后concat起来,然后才去过一个单层全连接,等价的效果就是三个Embedding相加。

在这里用一个简单的例子在尝试理解一下:

假设Token Embedding矩阵的维度为[4,768],Position Embedding的矩阵维度为[3,768],Segment Embedding矩阵维度为[2,768]。

对于一个word来说,假设它的Token one-hot为[1,0,0,0] ; 它的Position one-hot为[1,0,0],它的segment one-hot为[1,0]。

那么这个字最后的word Embedding,就是上面三种Embedding相加之和。

如此得到的word Embedding,事实上和concat后的特征:[1,0,0,0,1,0,0,1,0],在过维度为[4+3+2,768]=[9,768]的全连接层,得到的向量其实是一样的。

我们可以再换一个角度进行理解:

不妨直接将三个one-hot特征concat起来得到的[1,0,0,0,1,0,0,1,0],虽然形式上不再是one-hot了,但是可以将其映射到三个one-hot组成的特征空间,此时特征空间的维度为432=24,而在这个新的特征空间中,这个字的one-hot就是[1,0,0,0...] (23个0)。

此时,Embedding的矩阵维度就是[24,768],最后得到的word Embedding依然是和上面等效,但是三个小Embedding矩阵的大小会远远小于新特征空间对应的Embedding矩阵大小。

当然,在相同初始化方法的前提下,两种方式得到的word Embedding可能方差会有差别,但是BERT模型还有Layer Norm,会把Embedding结果统一到相同的分布。

所以BERT的三个Embedding相加,本质上可以看做一个特征融合,强大如BERT应该可以学到融合后特征的语义信息的。

转自知乎,侵权删:
https://www.zhihu.com/question/374835153

相关推荐
张子夜 iiii17 分钟前
实战项目-----在图片 hua.png 中,用红色画出花的外部轮廓,用绿色画出其简化轮廓(ε=周长×0.005),并在同一窗口显示
人工智能·pytorch·python·opencv·计算机视觉
胡耀超38 分钟前
3.Python高级数据结构与文本处理
服务器·数据结构·人工智能·windows·python·大模型
索迪迈科技1 小时前
GPS汽车限速器有哪些功能?主要运用在哪里?
人工智能·行车记录仪·车辆安全·监控管理·gps定位
Niuguangshuo1 小时前
深度学习基本模块:Conv2D 二维卷积层
人工智能·深度学习
b***25111 小时前
深圳比斯特|多维度分选:圆柱电池品质管控的自动化解决方案
大数据·人工智能
金井PRATHAMA1 小时前
AI赋能训诂学:解码古籍智能新纪元
人工智能·自然语言处理·知识图谱
练习两年半的工程师1 小时前
AWS TechFest 2025: 智能体企业级开发流程、Strands Agents
人工智能·云计算·aws
Hello123网站2 小时前
Whismer-你的定制化AI问答助手
人工智能·chatgpt·ai工具
yinmaisoft2 小时前
当低代码遇上AI,有趣,实在有趣
android·人工智能·低代码·开发工具·rxjava
正经教主2 小时前
【慢教程】Ollama4:ollama命令汇总
人工智能·ollama