PointMixer论文阅读笔记

MLP-mixer是最近很流行的一种网络结构,比起Transformer和CNN的节构笨重,MLP-mixer不仅节构简单,而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳,PointMixer就是在保留了MLP-mixer优点的同时,还可以很好的处理点云问题。PointMixer可以很好的处理intra-set, inter-set, hierarchical-set的点云。PointMixer这偏论文还很好的证明了chanel-mixing MLP是比token-mixing MLP效果更好,对称encoder和decoder结构能够更好的处理点云问题。

为了方便论文阐述,做以下规定:

P是点云的总和

X是点云特性的总和

Y是output特性的总和

pi是i点云的位置

xi是i点云相关的特性

yi是i点云output的特性

Mi是pi点周围邻居点的集合,常表示为Mi = kNN(P, pi)

PointNet++: 使用kNN和最远点sampling算法,使用不对称的encoder和decoder。PointNet++网络不对整个点云直接分析,而是locally的处理然后再整合在一起。

yi = maxpooling(MLP(concat(xi, pi - pj)));j是Mi的成员

PointTransformer: 也是使用了kNN的方法

yi = sum(softmax(MLP(W1(xi) - W2(xj) + δ(pi - pj)))(W3(xj) + δ(pi - pj)))

W为linear transformer metric,δ为positional encoding vector。

MLP-Mixer: MLP-mixer分为token-mix MLP和channel-mix MLP, MLP-Mixer使用K个tokens有C维features, tokens是将图片分割成小块。 第一步是token-mixing MLPs, 第二步时channel-mixing MLP, token mixing是混合空间轴和维度轴到空间轴,channel-mixing是将空间信息转为维度和空间信息。

MLP-Mixer将CNN的两个任务切割开来,不同位置的mix叫token-mixing,同一位置不同channel的mix叫做channel-mixing。

X' = X + (W2ρ(W1(Layernorm(X))T))T

Y = X' + W4ρ(W3Layernorm(X'))

W是MLP,ρ是GELU

token-mix MLPs具有转置同变性,所以点云的输入顺序特别重要。需要在token-mix前再加一层转置不变的网络。

并且MLP-mixer只能处理inter-set的点云,还有很大的提升空间。

https://zhuanlan.zhihu.com/p/372692759

PointMixer:

sj = g2(concat(g1(xj); δ(pi - pj))); j属于Mi, g是channel-mix MLP, δ是positional encoding vector

yi = sum(softmax(sj) * g(xj)); 这里的乘法的element-wise

PointMixer的主要创新点是使用了positional embedding, 使用了softmax,不使用token-mix MLP

为什么不使用token-mix? token-mix MLP具有转置同变性的缺点,而且token-mix只能使用固定数量的输入,但是对于点云来说,neighbor不是固定的,要用聚类算法。

intra-set mixing 使用最传统的kNN

inter-set mixing 使用变种的query-kNN

hierarchical-set mixing 使用变种的hierarchical-kNN

对称性也表现在kNN的集合里面,encoder和decoder的M集是完全颠倒的。

相关推荐
航Hang*1 小时前
第三章:网络系统建设与运维(中级)——交换技术
运维·笔记·计算机网络·华为·ensp·交换机
航Hang*2 小时前
第一章:网络系统建设与运维(高级)—— 多区域OSPF路由协议
运维·服务器·网络·笔记·智能路由器·ensp
弘毅 失败的 mian2 小时前
Git 多人协作
经验分享·笔记·git
BlackWolfSky2 小时前
React中文网课程笔记2—实战教程之井字棋游戏
笔记·react.js·游戏
BlackWolfSky2 小时前
React中文网课程笔记1—快速入门
前端·笔记·react.js
chushiyunen2 小时前
发票合并拆分笔记
笔记
航Hang*2 小时前
第二章:网络系统建设与运维(高级)—— IS-IS路由协议
运维·服务器·网络·笔记·智能路由器·ensp
m0_650108242 小时前
MindDrive:基于在线强化学习的自动驾驶视觉 - 语言 - 动作模型
论文阅读·自动驾驶·minddrive·强化学习vla模型·连续动作空间·离散语言决策空间·端到端闭环驾驶
冻伤小鱼干2 小时前
《自动驾驶与机器人中的slam技术:从理论到实践》笔记——ch7(2)
笔记·机器人·自动驾驶
强子感冒了3 小时前
Java集合框架深度学习:从Iterable到ArrayList的完整继承体系
java·笔记·学习