Learning Visual Locomotion with Cross-Modal Supervision 文献解读

Learning Visual Locomotion with Cross-Modal Supervision 文献解读

论文标题 : Learning Visual Locomotion with Cross-Modal Supervision
作者 : Antonio Loquercio*, Ashish Kumar*, Jitendra Malik (UC Berkeley,*表示同等贡献)
发表会议 : ICRA 2023 (IEEE International Conference on Robotics and Automation)
项目主页 : https://antonilo.github.io/vision_locomotion/
代码 : https://github.com/antonilo/vision_locomotion
Arxiv: https://arxiv.org/abs/2211.03785


文章摘要:本文解读了ICRA 2023收录的《Learning Visual Locomotion with Cross-Modal Supervision》论文。该研究提出**跨模态监督(CMS)**算法,利用时间平移的本体感知作为自监督信号,在真实世界中训练四足机器人的单目RGB视觉行走策略。核心思路是:在仿真器中训练可"作弊"获取地形高度的盲走策略,再通过CMS在真实世界中训练视觉模块预测前方地形高度,从而避免RGB仿真的sim-to-real鸿沟。实验表明,仅需不到30分钟真实世界数据,即可将盲策略的50%成功率提升至100%,行走速度提高26%。CMS还天然支持终身持续学习,并通过棱镜适应实验验证了系统的视觉可塑性。


一、研究背景与核心问题

1.1 研究动机

Gibson 曾提出著名论断:"我们为了移动而看,我们为了看而移动"。对于陆地动物而言,可以解读为"我们为了行走而看,我们为了行走而走"。从字面意义上讲,盲人确实可以行走,盲机器人也可以行走(如RMA),但Gibson并非全然错误------虽然盲人可以行走,但在复杂地形(如楼梯)上会感到极其困难且无法快速行走。他们必须先用拐杖小心探测前方才能安全行走。

人类视觉研究表明,视觉为我们提供了**"前瞻"(look-ahead)**能力------当我们能看到前方的地面时,我们的落脚更平滑,行走更高效。这种前瞻与行走策略紧密耦合。本文将这一研究思路拓展到机器人领域:为四足机器人开发行走策略,利用视觉系统进行前瞻------预测机器人前方地形的高度

1.2 关键科学问题与技术挑战

核心问题 :如何训练仅使用单目RGB相机和**本体感知(proprioception)**的视觉行走策略?

具体挑战包括:

  1. RGB渲染的Sim-to-Real鸿沟

    • 仿真器中渲染的RGB图像与真实世界图像差异巨大;
    • 渲染逼真度越高,计算成本越大,在高样本复杂度的RL训练内循环中使用RGB渲染是不可行的;
    • 这与深度输入形成鲜明对比:深度的sim-to-real差距小,多个系统已成功从仿真迁移到真实世界。
  2. 视觉训练的"鸡生蛋、蛋生鸡"悖论

    • 要开发能为行走提供前瞻的视觉系统,首先需要能够行走以收集数据来监督视觉系统;
    • 幸运的是,不存在无限递归问题:机器人可以从盲走策略(即使笨拙)开始引导(bootstrap)。
  3. RGB输入的维度爆炸与计算约束

    • 图像的高维度使端到端视觉运动训练比纯本体感知训练困难得多;
    • 在有限机载计算资源上实现实时视觉推理。
  4. 真实世界终身学习

    • 如何在机器人部署过程中,利用自身经验持续改进视觉地形预测能力,进而提升整体行走性能。

二、研究方法与技术路线

2.1 总体框架

本文的核心洞察是:视觉部分可以在真实世界中从机载传感器训练,而动作策略仍可在仿真器中训练

具体思路:

  1. 在仿真器中训练一个盲走策略 (πblind\pi_{blind}πblind),该策略可以"作弊"------获知前方若干"前瞻点"的地形高度;
  2. 在真实世界中,单独训练一个视觉系统,从RGB图像预测前瞻点的地形高度;
  3. 视觉系统通过跨模态监督(Cross-Modal Supervision, CMS) 进行训练------利用时间平移的本体感知作为监督信号。

2.2 仿真训练阶段

2.2.1 策略结构

在仿真中训练两个行走策略:π\piπ(前瞻策略) πblind\pi_{blind}πblind(盲策略)

状态输入
xt=qt,qt′,at−1,zt,γt⊤x_t = q_t, q'_t, a_{t-1}, z_t, \\gamma_t^{\top}xt=qt,qt′,at−1,zt,γt

  • qt∈R12q_t \in \mathbb{R}^{12}qt∈R12:当前关节位置
  • qt′∈R12q'_t \in \mathbb{R}^{12}qt′∈R12:关节速度
  • at−1∈R12a_{t-1} \in \mathbb{R}^{12}at−1∈R12:前一时刻动作
  • zt∈R8z_t \in \mathbb{R}^8zt∈R8:外在向量(环境参数潜在编码)
  • γt\gamma_tγt:机器人脚下地形几何的潜在表示

关键变量定义

  • zt=μ(et)z_t = \mu(e_t)zt=μ(et):环境因子编码器将物理参数编码为8维潜在向量
    • ete_tet 包含:负载、电机强度、脚接触二值指示、线速度、摩擦系数等
  • γt=δ(ht)\gamma_t = \delta(h_t)γt=δ(ht):地形几何编码器将地形高度编码为潜在表示
  • γt+Δt=δ(ht+Δt)\gamma_{t+\Delta t} = \delta(h_{t+\Delta t})γt+Δt=δ(ht+Δt):前瞻地形编码------机器人前方15cm处的地形估计

策略输出

前瞻策略(π\piπ):
at=π(xt,zt,γt,γt+Δt)a_t = \pi(x_t, z_t, \gamma_t, \gamma_{t+\Delta t})at=π(xt,zt,γt,γt+Δt)

盲策略(πblind\pi_{blind}πblind):
at=πblind(xt,zt,γt)a_t = \pi_{blind}(x_t, z_t, \gamma_t)at=πblind(xt,zt,γt)

网络架构

  • μ\muμ、π\piπ、πblind\pi_{blind}πblind均为两层MLP,隐藏维度分别为256,128256, 128256,128128,128128, 128128,128
  • δ\deltaδ为64,1664, 1664,16的MLP,γt\gamma_tγt和γt+Δt\gamma_{t+\Delta t}γt+Δt共享同一δ\deltaδ网络。
2.2.2 训练流程
  1. 先训练盲策略 :联合训练 πblind\pi_{blind}πblind 和相关编码器(μ\muμ、δ\deltaδ),使用无模型RL端到端训练;
  2. 冻结编码器,再训练前瞻策略 :冻结 δ\deltaδ 和 μ\muμ,仅训练 π\piπ。
2.2.3 环境设计
  • 分形地形:与RMA类似,在分形地形上训练;
  • 参数化楼梯 :灵感来自建筑学经典参考------舒适的楼梯高度应为10,1910, 1910,19cm,长度不小于30cm;高度近似为2×rise+going≈1002 \times \text{rise} + \text{going} \approx 1002×rise+going≈100cm。据此,作者采样楼梯高度在10,2110, 2110,21cm范围,台阶长度从{30,40,50,60}\{30, 40, 50, 60\}{30,40,50,60}cm中选取。
  • 斜坡:参数化斜坡。
2.2.4 奖励函数设计
奖励项 公式 权重 物理意义
前进速度 min⁡(vxd,vx)\min(v_x^d, v_x)min(vxd,vx) 65 鼓励达到目标前进速度 vxd∈0,0.5v_x^d \in 0, 0.5vxd∈0,0.5 m/s
横向速度 ∣vy∣|v_y|∣vy∣ 1 抑制横向漂移
角速度 −∣wzd−wz∣+wxd-|w_z^d - w_z| + w_x^d−∣wzd−wz∣+wxd 40 跟踪目标角速度 wzd∈−0.4,0.4w_z^d \in -0.4, 0.4wzd∈−0.4,0.4 rad/s
做功 −∣τ⊤⋅(αt−αt−1)∣-|\tau^{\top} \cdot (\alpha_t - \alpha_{t-1})|−∣τ⊤⋅(αt−αt−1)∣ 0.05 最小化关节做功
足部滑动 −∣diag(g)t⋅vft∣-|\text{diag}(g)_t \cdot v_f^t|−∣diag(g)t⋅vft∣ 0.2 减少支撑足滑动

此外,还包含:

  • 生存奖励(权重9):在楼梯上时加倍,鼓励持续行走;
  • 环境参数:从RMA报告中随机采样负载、摩擦、电机强度等。
2.2.5 训练课程
  1. 阶段一:平坦地形上训练5亿步;
  2. 阶段二:逐渐增加楼梯难度------从10cm高度起步,每1亿步增加台阶高度直至最大值;
  3. 防遗忘:楼梯训练中以10%概率采样平坦地形;
  4. 动作正则化:添加回归损失匹配仅在平坦地形上训练的策略的动作。
2.2.6 Sim-to-Real 迁移

为将盲策略 πblind\pi_{blind}πblind 迁移到真实世界,训练一个网络 g0g_0g0 从本体感知和动作历史中预测 ztz_tzt 和 γt\gamma_tγt,采用与RMA相同的结构和训练过程。

2.3 跨模态监督(CMS)------核心算法

2.3.1 核心思想

CMS使用时间平移的本体感知来监督视觉

我看前方的一个点A,其高度当前未知。但当我的脚到达A时,其高度可以从我的身体关节角度推断出来。

这构成了自监督学习范式------监督信号来自机载传感器,不需要人工标注。

2.3.2 数据收集与训练

数据集构建
D={(It,xt),γt}\mathcal{D} = \{(I_t, x_t), \gamma_t\}D={(It,xt),γt}

  • ItI_tIt:机载RGB相机的自我中心视觉输入
  • xtx_txt:当前本体感知状态
  • γt\gamma_tγt:通过本体感知估计的当前地形几何(作为监督目标)

CNN视觉估计器架构

  1. 输入:最近三帧灰度图像(15Hz,拼接为输入张量)
  2. 特征提取:ShuffleNet-V2(保留全局平均池化前的最后一层以维持空间信息)
  3. 维度压缩:1D卷积将特征投影到2维通道空间
  4. 多模态融合:提供50步IMU测量历史(roll、pitch)和期望速度指令 → 经预测器输出128维嵌入 → 与ShuffleNet特征拼接
  5. 最终预测 :MLP(128,64128, 64128,64)预测 γ\gammaγ

训练目标

在收集的数据集 D\mathcal{D}D 上通过监督学习训练视觉网络 gig_igi,使其能从视觉输入估计当前外在向量 ztz_tzt 和未来地形几何 γt+Δt\gamma_{t+\Delta t}γt+Δt:
z^t,γ^t+Δt=gi(It,xt)\hat{z}t, \hat{\gamma}{t+\Delta t} = g_i(I_t, x_t)z^t,γ^t+Δt=gi(It,xt)

最小化 CMS 误差(ztz_tzt 和 γt+Δt\gamma_{t+\Delta t}γt+Δt 的预测误差)。

2.4 终身持续学习(Lifelong Learning via CMS)

CMS自然支持终身学习:

  • 机器人部署过程中持续收集数据集 D\mathcal{D}D;
  • 实时使用本体感知的 γ\gammaγ 估计作为监督信号;
  • 在执行过程中持续训练视觉前瞻地形预测器;
  • 正向循环:更好的视觉预测 → 更好的行走 → 更高质量的数据 → 更好的视觉预测。

2.5 部署架构

模块 运行频率 功能
自适应模块(g) ~10 Hz 从本体感知历史预测 ztz_tzt、γt\gamma_tγt
视觉估计器(gig_igi) 15 Hz 从RGB图像预测 z^t\hat{z}tz^t、γ^t+Δt\hat{\gamma}{t+\Delta t}γ^t+Δt
电机策略(π\piπ) 100 Hz 接收状态和预测,生成目标关节角度

注:视觉估计器与自适应模块独立运行,基础策略融合两者的输出。


三、实验设计与结果分析

3.1 实验平台

配置项 规格
硬件平台 Unitree A1 四足机器人
视觉传感器 单目RGB相机(15Hz,灰度化处理)
本体感知 电机编码器 + IMU + 足部接触传感器
仿真器 RaiSim(刚性体 + 接触动力学)
控制方式 位置控制 + PD控制器(100Hz)
单次Episode 最长1200步,早终止条件:roll/pitch超限或底座过低
仿真时间步 0.025s

3.2 盲策略 vs 视觉策略行为分析

图3关键分析

特性 盲策略(Blind) 视觉策略(Vision)
γ\gammaγ 估计方式 实时本体感知 视觉前瞻预测
楼梯接近行为 笨拙的"探索式"------需要触碰楼梯两次才能正确估计高度 预知地形几何,提前调整步态
初始爬升速度 较慢 约提升2倍
步态特征 踉跄、试探 平滑、敏捷
成功率 约50% 可达100%

3.3 终身学习实验------四楼梯持续改进

对4个不同规格的楼梯(高度12.7-19cm,台阶长度29-43cm),跨4天持续收集数据并评估:

阶段 数据量 成功率 距离指标 完成时间
盲策略(Day 0) 0 40-60% 0.51-0.82 7-28s
Day I ~7 min 40-60% 0.71-0.89 7-27s
Day II ~14 min 60-80% 0.75-0.86 6-26s
Day III ~21 min 100% 1.0 6-23s

关键发现

  • 仅需不到30分钟的真实世界数据(跨4天),所有楼梯成功率均达到100%;
  • 视觉策略平均行走速度比盲策略提高26%
  • 成功率提高50个百分点

3.4 数据收集效率分析

对比项 盲策略收集数据 视觉策略收集数据
单次实验平均数据量 基线 +21%
数据质量 偶尔踉跄/触碰导致损坏数据 步态精确,数据质量高
训练效果 同等数据量下性能更差 同等数据量下性能更优

结论:使用最新视觉策略(而非初始盲策略)收集数据能实现更快的收敛------因为视觉策略可以走更长时间不掉落,显著提高真实世界数据收集效率。

3.5 泛化实验

地形 成功率 说明
未见过的楼梯 80% 视觉模块从未训练过
路缘石(curbs) 100% 最高20cm
陡坡(35°) 60% 滑溜斜坡

注:跨校区泛化------在Berkeley校区训练后在Stanford校区验证。

3.6 视觉前置量消融实验(仿真)

前瞻距离 成功率(↑) TTF(↑) 距离(m)(↑) 平滑性(↓)
0cm(RMA等同) 58% 0.83 4.11 44.30
5cm 64% 0.88 4.67 34.19
15cm 75% 0.95 4.73 30.77
25cm 74% 0.96 4.96 37.19
35cm 74% 0.94 4.66 31.43

结论 :前瞻距离从0cm增加到15cm时,成功率从58%急剧跃升至75%(+17个百分点),此后趋于饱和,证明15cm是性价比最优的前瞻距离。

3.7 棱镜适应实验(Prism Adaptation Test)

这是视觉运动领域广为人知的"棱镜测试"------测试系统对视觉场人工位移的适应能力:

阶段 描述 机器人表现
Pre-test(预测试) 相机处于标称位置 完美爬楼梯
Exposure(暴露) 相机绕偏航轴旋转约30° 眼眶楼梯、水平漂移
Adaptation(适应期1) 微调最后3层 经过3次试验(~80秒数据)恢复预期能力和直行
Post-test I(返回测试1) 相机回到原位 踉跄
Post-test II(返回测试2) 再次微调 经过2次试验重新适应原始视觉场

适应机制 :每次试验后,最小化CMS误差,仅微调γ\gammaγ预测器的最后3层,训练10个epoch。

结论 :CMS使策略具备显著的视觉可塑性------在极少量数据(~1分钟)下即可适应视觉场的大幅偏移。


四、主要创新点与学术贡献

4.1 核心创新

  1. 跨模态监督(CMS)------全新的视觉训练范式

    • 首次使用时间平移的本体感知作为自监督信号训练视觉模块;
    • 完全在真实世界中训练视觉部分,避免了RGB仿真渲染的sim-to-real鸿沟;
    • 监督信号来自机载传感器,无需人工标注,实现完全自主的真机学习。
  2. "盲→视觉"的优雅引导策略

    • 从仿真训练的盲策略起步(可与RMA等现有框架兼容);
    • 盲策略收集的数据用于训练视觉模块;
    • 视觉模块训练好后切换到前瞻策略;
    • 解决"鸡生蛋"悖论的实用方案。
  3. 终身持续学习(Lifelong Learning)能力

    • CMS使机器人能够在部署过程中不断自我改进;
    • 正向反馈循环:更好的视觉 → 更好的行走 → 更高质量数据 → 更好的视觉;
    • 仅需每天7分钟数据即可实现显著性能提升。
  4. 单目RGB的纯视觉行走

    • 放弃深度传感器(LiDAR/立体相机),仅使用单目RGB相机;
    • 在低成本机器人上实现复杂的视觉行走;
    • 展示了RGB-only设计在足式机器人领域的可行性与优势。

4.2 技术贡献

  1. 多模态特征融合的视觉估计器设计

    • ShuffleNet-V2提取空间特征(保留空间信息);
    • 1D卷积 + MLP融合视觉特征与IMU历史/速度指令;
    • 在有限计算资源下实现实时推理。
  2. 前瞻地形编码机制

    • γt\gamma_tγt(脚下地形)和 γt+Δt\gamma_{t+\Delta t}γt+Δt(前方15cm地形)共享编码器 δ\deltaδ;
    • 仿真中真值可用预处理训练,真实世界中通过CMS估计;
    • 消融实验系统验证了15cm为最优前瞻距离。
  3. 参数化楼梯生成与课程学习

    • 基于建筑学标准的物理合理楼梯分布;
    • 两级课程:平面→渐进式楼梯难度递增;
    • 防遗忘机制:楼梯训练中混合平坦地形采样。
  4. Sim-to-Real迁移的渐进策略

    • 盲策略 → 自适应模块 → 视觉模块的三层递进;
    • 每个阶段独立训练和验证,便于问题定位。

4.3 实验贡献

  • 首个使用CMS在真实世界中系统训练视觉行走策略的工作;
  • 最多的真实世界楼梯和地形上系统评估视觉行走性能;
  • 验证视觉策略的跨校区泛化(Berkeley → Stanford);
  • 首次在机器人平台上实现棱镜适应实验,展示视觉可塑性;
  • 系统消融实验验证视觉前瞻距离的最优值。

五、与相关工作的对比

方法 传感器要求 计算成本 真实世界性能 持续学习能力
CMS(本文) 单目RGB + IMU 低(可在A1上实时运行) 高(各种复杂地形) ✅ 天然支持
RMA Kumar 2021 仅本体感知 中等(盲走)
Miki et al. 2022 3 LiDAR + 8立体模块 极高
Miki et al. 2022 LiDAR/立体相机 中-高
传统模块化方法 深度传感器 中-高 受限于手工特征

六、局限性与未来方向

6.1 局限性

  1. 仅改善视觉模块,不改善电机模块

    • CMS框架仅更新视觉预测器,电机策略在真实世界中保持固定;
    • 电机策略的局限性(如RMA的盲策略)在极端地形上可能成为瓶颈。
  2. 地形覆盖的局限性

    • 未覆盖所有真实世界地形类型(如碎石、冰面等);
    • 35°陡坡仅60%成功率,仍有提升空间。
  3. 单目RGB的固有局限

    • 无深度信息,对光照变化敏感;
    • 无法直接感知透明/镜面表面。
  4. 依赖盲策略的初始质量

    • 如果盲策略在某种地形上完全无法行走,无法收集数据训练视觉模块。

6.2 未来方向

  1. CMS + 电机策略联合在线改进

    • 在真实世界中同时改善视觉系统和电机策略;
    • 实现端到端的终身学习。
  2. 融合更多模态

    • 触觉反馈、力传感器等多模态信息;
    • 更好的地形分类与自适应。
  3. 扩展到其他机器人平台

    • 双足机器人视觉行走;
    • 人形机器人视觉运动。
  4. 更复杂的视觉任务

    • 视觉导航 + 地形适应的联合学习;
    • 长期规划与短期自适应的融合。

七、总结

本文提出了跨模态监督(Cross-Modal Supervision, CMS)算法,解决了在真实世界中训练单目RGB视觉行走策略的核心挑战。CMS利用时间平移的本体感知作为自监督信号来训练视觉模块,天然支持终身持续学习。

核心贡献可归纳为:

  1. 方法论创新:CMS提供了一种全新的范式------在真实世界中从机载传感器以自监督方式训练视觉部分,避免RGB仿真的sim-to-real鸿沟;
  2. 系统设计:优雅的"盲策略→视觉模块"引导方案,实现了从仿真到真实世界的平滑过渡;
  3. 实验验证:在不到30分钟真实世界数据内,将盲策略从50%成功率提升至100%,视觉策略平均速度提高26%;
  4. 深度洞察:通过棱镜适应实验展示了视觉可塑性,通过前瞻消融实验验证了15cm最优前瞻距离。

CMS为足式机器人的视觉行走提供了一条实用且优雅的路径,证明了即使在有限计算资源的低成本机器人上,仅使用单目RGB相机也能实现复杂的视觉运动行为。


八、关键术语表

术语 英文 解释
跨模态监督 Cross-Modal Supervision (CMS) 使用时间平移的本体感知作为监督信号训练视觉模块
前瞻 Look-ahead 机器人对前方地形几何的预测能力
视觉前瞻 Visual Lookahead 通过视觉传感器预测前方地形高度
盲策略 Blind Policy 不使用视觉,仅依赖本体感知的行走策略
前瞻策略 Lookahead Policy 使用视觉前瞻地形信息的行走策略
时间平移本体感知 Time-Shifted Proprioception 当前时间步看到的前方地形,在未来的本体感知中可被精确估计
终身学习 Lifelong Learning 在部署过程中持续利用新数据改进模型
棱镜适应测试 Prism Adaptation Test 测试系统适应视觉场偏移能力的经典实验
视觉可塑性 Visual Plasticity 视觉系统适应视觉输入变化的能力
自监督学习 Self-Supervised Learning 使用机载传感器生成监督信号,无需人工标注
分形地形 Fractal Terrain 使用分形算法生成的不规则模拟地形
ShuffleNet-V2 --- 轻量级CNN特征提取网络
本体感知 Proprioception 机器人通过内部传感器感知自身关节状态
自我中心视觉 Egocentric Vision 从机器人第一人称视角采集的视觉数据
RMA Rapid Motor Adaptation 快速电机自适应算法(本文的前置工作)
相关推荐
豆豆2 天前
政府网站最好用什么CMS建站系统
cms·建站系统·信创国产化·政府网站·政企网站·等保备案
豆豆3 天前
垂直行业门户网站搭建解决方案与落地实操指南
大数据·cms·pageadmin·自定义模型·垂直门户·行业建站·站群建设
guizhoumen3 天前
常用的cms内容管理系统和建站软件分享
cms·网站建设·网站制作·建站系统·内容管理系统·建站软件
豆豆3 天前
阿里云SaaS建站 vs. PageAdmin CMS建站:最终对比与选择指南
cms·saas·开源cms·阿里云saas建站·pageadmin cms·云建站
豆豆5 天前
当GEO遇见CMS:企业网站管理系统如何适配AI大模型?
人工智能·cms·ai大模型·seo优化·geo优化·企业建站·企业网站管理系统
豆豆5 天前
2026实测:AI生成UI设计稿后,如何优雅集成到PageAdmin CMS?(附标签替换代码)
人工智能·ui·cms·建站系统·ai工具·ai建站
豆豆10 天前
从SaaS到自建CMS的选型复盘:一个专注网站开发的技术选型笔记
笔记·cms·建站系统·内容管理系统·网站管理系统·建站软件·建站工具
tongluowan00710 天前
jvm垃圾回收器 - CMS-已弃用的垃圾回收器
jvm·cms·垃圾回收器
guizhoumen13 天前
2026年主流CMS建站工具深度解析与选型指南
cms·内容管理系统·网站管理系统·建站软件·建站工具
豆豆15 天前
WordPress与PageAdmin CMS深度技术对比:从架构到国产化合规的全维度分析
架构·cms·网站建设·建站系统·内容管理系统·网站管理系统·站群cms