深度学习基础模块
-
-
- [1 VAE](#1 VAE)
- [2 rope旋转位置编码](#2 rope旋转位置编码)
-
1 VAE
原理:分为编码器和解码器,编解码器中间是隐变量
自编码器输出近似分布,用单位高斯来监督这个近似分布,loss为kl散度
解码时用近似分布z对隐变量采样,然后输入解码器,最后用图片作为loss
特点:
(1)用重参数化解决梯度传播中断的问题
同时监督隐变量loss和重建loss,最终的特征分布最好。
典型用途
2 rope旋转位置编码
原理:经典正余弦位置编码是加到特征向量上,rope是乘到特征向量上,相当于是对特征向量进行了旋转
特点:
(1)融入了相对位置信息
(2)便于外推
参考链接: