如何理解Transformer论文中的positional encoding,和三角函数有什么关系?

大家好,我分享交流下这个问题。

Positional Encoding

掏出一张被无数人讲述的架构图。

Transformer 模型中的位置编码(Positional Encoding)是为了让模型能够考虑单词在句子中的位置。

由于 Transformer 的自注意力(Self-Attention)机制本身并不考虑单词的顺序,位置编码就成为了引入这种顺序信息的关键。

位置如图

位置编码(Positional Encoding)分别加到了输入嵌入(Input Embedding)和输出嵌入(Output Embedding)之后。

输入嵌入(Input Embedding)

输入序列,例如序列狗咬人 这些单词也叫Token(词符)。

Token 是文本序列中的最小单位,可以是单词、字符等形式。

tokens:["狗", " 咬人"]。Token 的词汇表中包含了所有可能情况,每个 token 预先被分配了唯一的数字 ID,称为 token ID。

最后是词嵌入(Word Embedding)。词嵌入的目标是把每个 token 转换为固定长度的向量表示

这些向量可以根据 token ID 在预训练好的词嵌入库(例如 Word2Vec 等)中拿到。

结合示例("狗咬人描述")

对于输入序列"狗咬人",模型首先会获得每个单词"狗"和"咬人"的嵌入向量。

然后,模型会为序列中的每个位置生成一个位置编码向量。

最后,每个单词的嵌入向量会与其对应位置的位置编码向量相加,生成最终的向量,该向量同时包含了单词的语义信息和位置信息。

这样,即使是单词"狗"出现在不同的位置,其最终的向量表示也会因为位置编码的加入而有所不同,从而使得模型能够区分"狗咬人"和"人咬狗"。

三角函数

位置编码(Positional Encoding)不一定非要使用三角函数。虽然在原始的Transformer模型中,位置编码使用了正弦和余弦函数的固定模式,但这不是唯一的方法。

Transformer 模型中的位置编码(Positional Encoding)是为了让模型能够考虑单词在句子中的位置。由于 Transformer 的自注意力(Self-Attention)机制本身并不考虑单词的顺序,位置编码就成为了引入这种顺序信息的关键。

假设你有一个长度为L的输入序列,要计算第K个元素的位置编码。位置编码由不同频率的正弦和余弦函数给出:

  • k:对象在输入序列中的位置,0<=k<L/2
  • d: 输出嵌入空间的维度
  • P(k,j): 位置函数,用于映射输入序列中k处的元素到位置矩阵的(k,j)处
  • n:用户定义的标量,由 Attention Is All You Need 的作者设置为 10,000。
  • i: 用于映射到列索引,0<=i<d/2,单个值i映射到正弦和余弦函数

你可以看到偶数位置对应正弦函数,奇数位置对应余弦函数。

如果有不清楚可以看下A Gentle Introduction to Positional Encoding in Transformer Models, Part 1 ,有代码和图表展示。

中文版本:http://www.bimant.com/blog/transformer-positional-encoding-illustration/

总结

后面有疑问咱们继续交流!

独立开源软件开发者,SolidUI作者,对于新技术非常感兴趣,专注AI和数据领域,如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!

相关推荐
北岛寒沫2 分钟前
北京大学国家发展研究院 经济学辅修 经济学原理课程笔记(第三课 需求与供应弹性)
数据库·人工智能·笔记
哥布林学者5 分钟前
吴恩达深度学习课程三: 结构化机器学习项目 第二周:误差分析与学习方法 课后习题和代码实践
深度学习·ai
北京青翼科技11 分钟前
【TES818 】基于 VU13P FPGA+ZYNQ SOC 的 8 路 100G 光纤通道处理平台
图像处理·人工智能·fpga开发·信号处理·智能硬件
一点一木12 分钟前
🚀 2025 年 11 月 GitHub 十大热门项目排行榜 🔥
前端·人工智能·github
mys551815 分钟前
AI搜索趋势对企业营销的核心影响
人工智能·geo·ai搜索优化·geo优化
c#上位机16 分钟前
halcon图像分割之动态阈值分割
图像处理·人工智能·计算机视觉·c#·halcon
小糖学代码17 分钟前
LLM系列:1.python入门:1.初识python
服务器·开发语言·人工智能·python·ai
m0_5649149217 分钟前
视频字幕AI总结丨FPGA入门教学视频
人工智能·fpga开发
慎独41319 分钟前
重塑价值分配:从土地、机器到数据的生产关系革命
大数据·运维·人工智能
IT_陈寒24 分钟前
React 18新特性实战:这5个Hook组合让我少写50%状态管理代码
前端·人工智能·后端