transformer理解

1.gpt基于transformer(本质是加权求和) 基于注意力机制

2.注意力机制是为了编解码服务的

3.编码解码中的码是"剥离了英语中文这种类别之外的单纯的语义关系",比如香蕉的语义相近的就应该是猴子,黄色,无论中文还是英语,都是这样的语义关系

4.tokenizer(分词器)和one hot(独热编码)对最基础的语义单元(字母/单词)(token)数字化

分词器:很难表达出复杂的语义关系;独热编码:所有的token都是一个独立的,很难体现之间的语义关系

5.潜空间:找到这个潜空间(一个方法是升维,一个是对独热编码降维)

6.神经网络中的隐藏层,神经网络实现非线性变化,神经网络实现升维和降维

  1. 编码就是将文本里面的token编成独热码,然后进行降维,相当于把输入的一句话根据语义投射到一个潜空间里,高维---->低维,这个过程叫embedding,也就是嵌入,这个过程也叫做词嵌入,因为使用的是矩阵乘法,所以将token投入到潜空间的矩阵叫做嵌入矩阵

然后根据潜空间进行翻译等各种处理(我的理解就是将各种输入,无论英文汉语,都提取出来,形成一个只包含纯粹的语义关系的潜空间)

NLP里每个维度对应的是基础语义,图片里对应的是通道(三色)

8.如何找到实现降维的嵌入矩阵?

Word2Vec(结果是得到嵌入矩阵),不需要激活函数

9.利用CBOW去评估得到word2vec(合力,分力)

10.利用skip-gram去评估得到word2vec(已知一个token,推断上下文token,然后判断对不对,和cbow相反)

11.对于词和词组合后的理解靠的就是注意力机制(transformer的核心)

注意力机制输入的是一组词向量,注意力机制要解决美女,让一让和美女,加一下微信,这种上下文对美女美丽程度的影响

A'上下文关联的修改系数

12.选择两个矩阵相乘Wq,Wk是为了让模型可以表达更复杂的情况

13.注意力机制:从一个多义词中,比如苹果,选择一个表达

14.自注意力机制,交叉注意力(做翻译比较ok)

15.训练过程

16.有的大模型只用解码器,编码器

17.相对位置编码:为了保证的token的先后顺序,在并行计算的同时

18.多头注意力机制:比卷积神经网络更好,可以跨越,结果更灵活,transformer叠加了很多层

19.掩码

文章来源于从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)_哔哩哔哩_bilibili

相关推荐
LDG_AGI1 分钟前
【推荐系统】深度学习训练框架(一):深入剖析Spark集群计算中Master与Pytorch分布式计算Master的区别
人工智能·深度学习·算法·机器学习·spark
LDG_AGI2 分钟前
【推荐系统】深度学习训练框架(二):深入剖析Spark Cluster模式下DDP网络配置解析
大数据·网络·人工智能·深度学习·算法·机器学习·spark
ai智能获客_狐狐5 分钟前
电商零售行业外呼优势
人工智能·算法·自然语言处理·语音识别·零售
算家云6 分钟前
推理成本吞噬AI未来,云计算如何平衡速度与成本的难题?
人工智能·云计算·模型训练·算家云·租算力,到算家云·算家计算
tiger1191 小时前
FPGA在AI时代的定位?
人工智能·fpga开发
EMQX1 小时前
ESP32 + MCP over MQTT:实现智能设备语音交互
人工智能·mqtt·语言模型·智能硬件
DisonTangor3 小时前
MiniMax 开源一个为极致编码与智能体工作流打造的迷你模型——MiniMax-M2
人工智能·语言模型·开源·aigc
Giser探索家5 小时前
无人机桥梁巡检:以“空天地”智慧之力守护交通生命线
大数据·人工智能·算法·安全·架构·无人机
不会学习的小白O^O5 小时前
双通道深度学习框架可实现从无人机激光雷达点云中提取橡胶树冠
人工智能·深度学习·无人机
恒点虚拟仿真5 小时前
虚拟仿真实训破局革新:打造无人机飞行专业实践教学新范式
人工智能·无人机·ai教学·虚拟仿真实训·无人机飞行·无人机专业虚拟仿真·无人机飞行虚拟仿真