论文阅读笔记——ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping

ZeroGrasp 论文

多视角重建计算大、配置复杂,本文将稀疏体素重建(快且效果好)引入机器人抓取且只考虑单目重建,通过利用基于物理的接触约束与碰撞检测(这对精确抓取至关重要),提升三维重建质量将直接改善抓取位姿预测。

表征

  • 三维表征:
    采用八叉树作为基础表征形式,在最深层级存储SDF法向量图像特征抓取位姿 ,可表示为最深层体素中心点 p 与对应图像特征 f 构成的元组: x = ( p , f ) , p ∈ R ( N × 3 ) , f ∈ R ( N × D ) x=(p,f),\quad p\in R^{(N×3)}, f\in R^{(N×D)} x=(p,f),p∈R(N×3),f∈R(N×D) 其中 N 为体素数量。(相较于点云,八叉树结构支持高效的深度优先搜索与递归八分空间划分,较低内存与计算成本)。
  • 抓取位姿表征:
    与 GraspNet 一致的平行二指夹爪模型(6D 位姿参数):表征抓取位置鲁棒性的视角抓取度评分 s ∈ R M s\in R^M s∈RM;基于力闭合算法计算的抓取质量 q ∈ R M q\in R^M q∈RM;视角方向 v ∈ R 3 M v\in R^{3M} v∈R3M ;夹爪角度 a ∈ R M a\in R^M a∈RM;开合宽度 w ∈ R M w\in R^M w∈RM;进深 d ∈ R M d\in R^M d∈RM。 g = ( s q v a w d ) g=\begin{pmatrix}s&q&v&a&w&d\end{pmatrix} g=(sqvawd) 其中 M 表示目标八叉树中抓取位姿总数,为每个点分配 5mm 半径内最近邻抓取位姿(若无则设抓取度为0)。由此得到八叉树的最终定义 : y = ( p g t , f g t ) = ( p g t , [ ϕ , n , g ] ) y=(p^{gt},f^{gt})=(p^{gt},[\phi,n, g]) y=(pgt,fgt)=(pgt,[ϕ,n,g]) 其中 ϕ ∈ R M \phi \in R^M ϕ∈RM 是 SDF(有向距离场), n ∈ R M n \in R^M n∈RM 是法向量场。
    特征提取:对于 RGB 图像 I ∈ R H × W × 3 I\in R^{H×W×3} I∈RH×W×3 进行编码得到图像特征 W,微调 SAM-2 生成 2D Mask ∈ R H × W \in R^{H×W} ∈RH×W ,利用反投影函数 π − 1 \pi^{-1} π−1 将图像特征转换为 3D 点云空间: ( q i , w i ) = π − 1 ( W , D , K , M i ) (q_i,w_i)=\pi^{-1}(\boldsymbol{W},\boldsymbol{D},\boldsymbol{K},\boldsymbol{M_i}) (qi,wi)=π−1(W,D,K,Mi) 其中 D 为深度图,K 为相机内参,得到 x i = ( p i , f i ) = G ( q i , w I ) x_i=(p_i,f_i)=G(q_i,w_I) xi=(pi,fi)=G(qi,wI)。

CVAE

单视角观测(如一张RGB-D图像)无法确定物体被遮挡部分的形状,传统方法输出单一结果可能不准确。CVAE通过潜在变量 (latent code)建模形状的多种可能性。

3D形状和抓取姿态的潜在表示建模为对角高斯分布。编码器 ϵ ( z i ∣ x i , y i ) \epsilon(z_i|x_i,y_i) ϵ(zi∣xi,yi) 基于输入八叉树 x i \boldsymbol{x}_i xi 和真实标签 y i \boldsymbol{y}_i yi 预测潜在编码 z i \mathcal{z}_i zi ;先验分布 P ( ℓ i , z i ∣ x i ) \mathcal{P}(\ell_i,\mathcal{z}_i|x_i) P(ℓi,zi∣xi) 生成潜在特征 ℓ i ∈ R N i ′ × D ′ \ell_i \in \mathbb{R}^{N_i^{'}×D^{'}} ℓi∈RNi′×D′ ,其中潜在编码通过重参数化从预测的均值和方差中采样;解码器 D ( y i ∣ ℓ i , z i , x i ) \mathcal{D}(\boldsymbol{y}_i|\ell_i,\mathcal{z}_i,\boldsymbol{x}_i) D(yi∣ℓi,zi,xi) 预测 3D 重建结果及抓取姿态。

  • 多目标编码器:由于传统先验模型 P 只能为每个目标单独计算特征,无法考虑空间布局。引入 K 个 RoPE 编码的 Transformer
  • 3D occlusion fields:通过细分体素和设置遮挡标志,将复杂的全局遮挡问题分解为局部问题,并通过 3D CNN 编码遮挡信息,最终整合到目标特征中。
  • 损失函数 : L r e c = ω o c c ∑ h H L o c c h + ω n r m L n r m + ω S D F L S D F L g r a s p = ω s L s + ω q L q + ω a L a + ω w L w + ω d L d L K L = ω K L D K L ( E ( z i ∣ x i , y i ) ∥ P ( ℓ i , z i ∣ x i ) ) L = L r e c + L g r a s p + L K L \begin{gathered} \mathcal{L}{\mathrm{rec}}=\omega{\mathrm{occ}}\sum_{h}^{H}\mathcal{L}{\mathrm{occ}}^{h}+\omega{\mathrm{nrm}}\mathcal{L}{\mathrm{nrm}}+\omega{\mathrm{SDF}}\mathcal{L}{\mathrm{SDF}} \\ \mathcal{L}{\mathrm{grasp}}=\omega_{\mathrm{s}}\mathcal{L}{\mathrm{s}}+\omega{\mathrm{q}}\mathcal{L}{\mathrm{q}}+\omega{a}\mathcal{L}{\mathrm{a}}+\omega{\mathrm{w}}\mathcal{L}{\mathrm{w}}+\omega{\mathrm{d}}\mathcal{L}{\mathrm{d}} \\ \mathcal{L}{\mathrm{KL}}=\omega_{\mathrm{KL}}D_{\mathrm{KL}}\left(\mathcal{E}\left(\mathbf{z}{i}\mid\mathbf{x}{i},\mathbf{y}{i}\right)\|\mathcal{P}\left(\ell{i},\mathbf{z}{i}\mid\mathbf{x}{i}\right)\right)\\ \mathcal{L}=\mathcal{L}{\mathrm{rec}}+\mathcal{L}{\mathrm{grasp}}+\mathcal{L}_{\mathrm{KL}} \end{gathered} Lrec=ωocch∑HLocch+ωnrmLnrm+ωSDFLSDFLgrasp=ωsLs+ωqLq+ωaLa+ωwLw+ωdLdLKL=ωKLDKL(E(zi∣xi,yi)∥P(ℓi,zi∣xi))L=Lrec+Lgrasp+LKL

抓取姿态优化

利用重建结果来优化预测的抓取姿态。首先检测抓取器左右指端在重建模型上的最近接触点 c L c_L cL 和 c R c_R cR,通过调整抓取宽度 w 和深度 d 确保指端与物体接触: Δ w = min ⁡ ( D ( c L ) , D ( c R ) ) , w ← w + 2 ( max ⁡ ( γ min ⁡ , min ⁡ ( Δ w , γ max ⁡ ) ) − Δ w ) d ← max ⁡ ( Z ( c L ) , Z ( c R ) ) , \begin{aligned} & \Delta w=\operatorname*{min}(D(c_{L}),D(c_{R})), \\ & w\leftarrow w+2\left(\max(\gamma_{\min},\min(\Delta w,\gamma_{\max}))-\Delta w\right) \\ & d\leftarrow\max(Z(c_L),Z(c_R)), \end{aligned} Δw=min(D(cL),D(cR)),w←w+2(max(γmin,min(Δw,γmax))−Δw)d←max(Z(cL),Z(cR)),

其中,D© 表示接触点 c 的距离,Δw 表示接触距离, γ m i n \gamma_{min} γmin 和 γ m a x \gamma_{max} γmax​ 是预设的最小和最大接触距离,这确保了接触距离 Δw 保持在 γ m i n \gamma_{min} γmin 到 γ m a x \gamma_{max} γmax 的范围内。

  • 碰撞检测:基于重建模型实现无模型碰撞检测,替代传统基于局部点云的方法(无法处理遮挡区域碰撞)。通过检测抓取器与重建模型的相交情况,剔除存在碰撞的抓取姿态

实验结果


相关推荐
Mr.Winter`几秒前
无人船 | 图解基于LQR控制的路径跟踪算法(以全驱动无人艇WAMV为例)
人工智能·算法·机器人·ros·ros2·运动规划·无人船
凤年徐11 分钟前
【C/C++】深入理解指针(六)
c语言·开发语言·c++·经验分享·笔记·指针
OpenLoong 开源社区41 分钟前
技术视界 | 数据的金字塔:从仿真到现实,机器人学习的破局之道
人工智能·学习·机器人·开源社区·人形机器人·openloong
崔高杰1 小时前
On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其二——数学计算部分
论文阅读·人工智能·笔记·语言模型·nlp
Small踢倒coffee_氕氘氚1 小时前
iPhone闹钟无法识别调休致用户迟到,苹果客服称会记录反馈
笔记·算法·灌灌灌灌
每天都要写算法(努力版)1 小时前
【神经网络与深度学习】两种加载 pickle 文件方式(joblib、pickle)的差异
人工智能·深度学习·神经网络
Francek Chen1 小时前
【现代深度学习技术】循环神经网络07:通过时间反向传播
人工智能·pytorch·rnn·深度学习·神经网络·bptt
Always_away2 小时前
数据库系统概论|第三章:关系数据库标准语言SQL—课程笔记6
数据库·笔记·sql·学习
墨绿色的摆渡人2 小时前
论文笔记(八十)π0.5: a Vision-Language-Action Model with Open-World Generalization
论文阅读
xieyan08112 小时前
论文阅读_Citrus_在医学语言模型中利用专家认知路径以支持高级医疗决策
论文阅读