为什么 Bert 的三个 Embedding 可以进行相加?

Embedding的本质

Embedding的数学本质,就是以one hot为输入的单层全连接。

也就是说,世界上本没什么Embedding,有的只是one hot。

现在我们将token,position,segment三者都用one hot表示,然后concat起来,然后才去过一个单层全连接,等价的效果就是三个Embedding相加。

在这里用一个简单的例子在尝试理解一下:

假设Token Embedding矩阵的维度为4,768,Position Embedding的矩阵维度为3,768,Segment Embedding矩阵维度为2,768

对于一个word来说,假设它的Token one-hot为1,0,0,0 ; 它的Position one-hot为1,0,0,它的segment one-hot为1,0

那么这个字最后的word Embedding,就是上面三种Embedding相加之和。

如此得到的word Embedding,事实上和concat后的特征:1,0,0,0,1,0,0,1,0,在过维度为4+3+2,768=9,768的全连接层,得到的向量其实是一样的。

我们可以再换一个角度进行理解:

不妨直接将三个one-hot特征concat起来得到的1,0,0,0,1,0,0,1,0,虽然形式上不再是one-hot了,但是可以将其映射到三个one-hot组成的特征空间,此时特征空间的维度为432=24,而在这个新的特征空间中,这个字的one-hot就是1,0,0,0... (23个0)。

此时,Embedding的矩阵维度就是24,768,最后得到的word Embedding依然是和上面等效,但是三个小Embedding矩阵的大小会远远小于新特征空间对应的Embedding矩阵大小。

当然,在相同初始化方法的前提下,两种方式得到的word Embedding可能方差会有差别,但是BERT模型还有Layer Norm,会把Embedding结果统一到相同的分布。

所以BERT的三个Embedding相加,本质上可以看做一个特征融合,强大如BERT应该可以学到融合后特征的语义信息的。

转自知乎,侵权删:
https://www.zhihu.com/question/374835153

相关推荐
陈天伟教授7 分钟前
图解人工智能(58)人工智能应用-围棋国手
人工智能·语音识别·机器翻译
闻道参看10 分钟前
2026年AI优质企业培训系统综合测评:合规管控/数据量化
人工智能
老虾头23 分钟前
科技贴近烟火:本地化 AI,赋能各行各业日常经营
人工智能
毒爪的小新33 分钟前
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务
linux·人工智能·ai·语言模型·vllm
老大白菜34 分钟前
25美元,DIY开源可穿戴智能AI眼镜:Arduino+乐鑫ESP32+DeepSeek项目
人工智能
岁月宁静1 小时前
RAG 文档摄入全链路,从原理到生产落地
vue.js·人工智能·python
小和尚同志1 小时前
AI 自动化测试探索(一):Playwright MCP
前端·人工智能·aigc
硅谷秋水2 小时前
面向长上下文自动驾驶的规划对齐Token压缩
人工智能·深度学习·机器学习·计算机视觉·自动驾驶
郭泽斌之心2 小时前
MQL5 EA 怎么和外部程序通信?文件三件套协议:参数热更新不重启、状态心跳、远程触发
人工智能·经验分享·深度学习·ea·fay数字人·easydeal