论文地址:https://arxiv.org/abs/2103.10360
参考:https://zhuanlan.zhihu.com/p/532851481

GLM混合了自注意力和masked注意力,而且使用了2D位置编码。第一维的含义是在PartA中的位置,如5 5 5。第二维的含义是在Span内部的位置,如1 2 3。
GLM混合了自注意力和masked注意力,而且使用了2D位置编码。第一维的含义是在PartA中的位置,如5 5 5。第二维的含义是在Span内部的位置,如1 2 3。