位置编码:为什么需要它,为什么用正弦读到《Attention Is All You Need》第 3.5 节「Positional Encoding」时,几乎每个第一次读论文的人都会愣一下。前面把整个架构推得那么顺:multi-head、scaled dot-product、encoder-decoder、residual——一切都自洽。然后突然来了一句话:「Since our model contains no recurrence and no convolution, in order for the model to make us