论文阅读笔记——ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping

多视角重建计算大、配置复杂，本文将稀疏体素重建（快且效果好）引入机器人抓取且只考虑单目重建，通过利用基于物理的接触约束与碰撞检测（这对精确抓取至关重要），提升三维重建质量将直接改善抓取位姿预测。

表征

三维表征：
采用八叉树作为基础表征形式，在最深层级存储SDF 、法向量 、图像特征 和抓取位姿 ，可表示为最深层体素中心点 p 与对应图像特征 f 构成的元组： x = ( p , f ) , p ∈ R ( N × 3 ) , f ∈ R ( N × D ) x=(p,f),\quad p\in R^{(N×3)}, f\in R^{(N×D)} x=(p,f),p∈R(N×3),f∈R(N×D) 其中 N 为体素数量。（相较于点云，八叉树结构支持高效的深度优先搜索与递归八分空间划分，较低内存与计算成本）。
抓取位姿表征：
与 GraspNet 一致的平行二指夹爪模型（6D 位姿参数）：表征抓取位置鲁棒性的视角抓取度评分 s ∈ R M s\in R^M s∈RM；基于力闭合算法计算的抓取质量 q ∈ R M q\in R^M q∈RM；视角方向 v ∈ R 3 M v\in R^{3M} v∈R3M ；夹爪角度 a ∈ R M a\in R^M a∈RM；开合宽度 w ∈ R M w\in R^M w∈RM；进深 d ∈ R M d\in R^M d∈RM。 g = ( s q v a w d ) g=\begin{pmatrix}s&q&v&a&w&d\end{pmatrix} g=(sqvawd) 其中 M 表示目标八叉树中抓取位姿总数，为每个点分配 5mm 半径内最近邻抓取位姿（若无则设抓取度为0）。由此得到八叉树的最终定义 ： y = ( p g t , f g t ) = ( p g t , [ ϕ , n , g ] ) y=(p^{gt},f^{gt})=(p^{gt},[\phi,n, g]) y=(pgt,fgt)=(pgt,[ϕ,n,g]) 其中 ϕ ∈ R M \phi \in R^M ϕ∈RM 是 SDF（有向距离场）， n ∈ R M n \in R^M n∈RM 是法向量场。
特征提取：对于 RGB 图像 I ∈ R H × W × 3 I\in R^{H×W×3} I∈RH×W×3 进行编码得到图像特征 W，微调 SAM-2 生成 2D Mask ∈ R H × W \in R^{H×W} ∈RH×W ，利用反投影函数 π − 1 \pi^{-1} π−1 将图像特征转换为 3D 点云空间： ( q i , w i ) = π − 1 ( W , D , K , M i ) (q_i,w_i)=\pi^{-1}(\boldsymbol{W},\boldsymbol{D},\boldsymbol{K},\boldsymbol{M_i}) (qi,wi)=π−1(W,D,K,Mi) 其中 D 为深度图，K 为相机内参，得到 x i = ( p i , f i ) = G ( q i , w I ) x_i=(p_i,f_i)=G(q_i,w_I) xi=(pi,fi)=G(qi,wI)。

CVAE

单视角观测（如一张RGB-D图像）无法确定物体被遮挡部分的形状，传统方法输出单一结果可能不准确。CVAE通过潜在变量 （latent code）建模形状的多种可能性。

3D形状和抓取姿态的潜在表示建模为对角高斯分布。编码器 ϵ ( z i ∣ x i , y i ) \epsilon(z_i|x_i,y_i) ϵ(zi∣xi,yi) 基于输入八叉树 x i \boldsymbol{x}_i xi 和真实标签 y i \boldsymbol{y}_i yi 预测潜在编码 z i \mathcal{z}_i zi ；先验分布 P ( ℓ i , z i ∣ x i ) \mathcal{P}(\ell_i,\mathcal{z}_i|x_i) P(ℓi,zi∣xi) 生成潜在特征 ℓ i ∈ R N i ′ × D ′ \ell_i \in \mathbb{R}^{N_i^{'}×D^{'}} ℓi∈RNi′×D′ ，其中潜在编码通过重参数化从预测的均值和方差中采样；解码器 D ( y i ∣ ℓ i , z i , x i ) \mathcal{D}(\boldsymbol{y}_i|\ell_i,\mathcal{z}_i,\boldsymbol{x}_i) D(yi∣ℓi,zi,xi) 预测 3D 重建结果及抓取姿态。

多目标编码器：由于传统先验模型 P 只能为每个目标单独计算特征，无法考虑空间布局。引入 K 个 RoPE 编码的 Transformer
3D occlusion fields：通过细分体素和设置遮挡标志，将复杂的全局遮挡问题分解为局部问题，并通过 3D CNN 编码遮挡信息，最终整合到目标特征中。
损失函数 ： L r e c = ω o c c ∑ h H L o c c h + ω n r m L n r m + ω S D F L S D F L g r a s p = ω s L s + ω q L q + ω a L a + ω w L w + ω d L d L K L = ω K L D K L ( E ( z i ∣ x i , y i ) ∥ P ( ℓ i , z i ∣ x i ) ) L = L r e c + L g r a s p + L K L \begin{gathered} \mathcal{L}{\mathrm{rec}}=\omega{\mathrm{occ}}\sum_{h}^{H}\mathcal{L}{\mathrm{occ}}^{h}+\omega{\mathrm{nrm}}\mathcal{L}{\mathrm{nrm}}+\omega{\mathrm{SDF}}\mathcal{L}{\mathrm{SDF}} \\ \mathcal{L}{\mathrm{grasp}}=\omega_{\mathrm{s}}\mathcal{L}{\mathrm{s}}+\omega{\mathrm{q}}\mathcal{L}{\mathrm{q}}+\omega{a}\mathcal{L}{\mathrm{a}}+\omega{\mathrm{w}}\mathcal{L}{\mathrm{w}}+\omega{\mathrm{d}}\mathcal{L}{\mathrm{d}} \\ \mathcal{L}{\mathrm{KL}}=\omega_{\mathrm{KL}}D_{\mathrm{KL}}\left(\mathcal{E}\left(\mathbf{z}{i}\mid\mathbf{x}{i},\mathbf{y}{i}\right)\|\mathcal{P}\left(\ell{i},\mathbf{z}{i}\mid\mathbf{x}{i}\right)\right)\\ \mathcal{L}=\mathcal{L}{\mathrm{rec}}+\mathcal{L}{\mathrm{grasp}}+\mathcal{L}_{\mathrm{KL}} \end{gathered} Lrec=ωocch∑HLocch+ωnrmLnrm+ωSDFLSDFLgrasp=ωsLs+ωqLq+ωaLa+ωwLw+ωdLdLKL=ωKLDKL(E(zi∣xi,yi)∥P(ℓi,zi∣xi))L=Lrec+Lgrasp+LKL

抓取姿态优化

利用重建结果来优化预测的抓取姿态。首先检测抓取器左右指端在重建模型上的最近接触点 c L c_L cL 和 c R c_R cR，通过调整抓取宽度 w 和深度 d 确保指端与物体接触： Δ w = min ⁡ ( D ( c L ) , D ( c R ) ) , w ← w + 2 ( max ⁡ ( γ min ⁡ , min ⁡ ( Δ w , γ max ⁡ ) ) − Δ w ) d ← max ⁡ ( Z ( c L ) , Z ( c R ) ) , \begin{aligned} & \Delta w=\operatorname*{min}(D(c_{L}),D(c_{R})), \\ & w\leftarrow w+2\left(\max(\gamma_{\min},\min(\Delta w,\gamma_{\max}))-\Delta w\right) \\ & d\leftarrow\max(Z(c_L),Z(c_R)), \end{aligned} Δw=min(D(cL),D(cR)),w←w+2(max(γmin,min(Δw,γmax))−Δw)d←max(Z(cL),Z(cR)),

其中，D© 表示接触点 c 的距离，Δw 表示接触距离， γ m i n \gamma_{min} γmin 和 γ m a x \gamma_{max} γmax 是预设的最小和最大接触距离，这确保了接触距离 Δw 保持在 γ m i n \gamma_{min} γmin 到 γ m a x \gamma_{max} γmax 的范围内。

碰撞检测：基于重建模型实现无模型碰撞检测，替代传统基于局部点云的方法（无法处理遮挡区域碰撞）。通过检测抓取器与重建模型的相交情况，剔除存在碰撞的抓取姿态

论文阅读笔记——ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping

表征

CVAE

抓取姿态优化

实验结果