Learning Visual Locomotion with Cross-Modal Supervision 文献解读

Learning Visual Locomotion with Cross-Modal Supervision 文献解读

论文标题 : Learning Visual Locomotion with Cross-Modal Supervision
作者 : Antonio Loquercio*, Ashish Kumar*, Jitendra Malik (UC Berkeley,*表示同等贡献)
发表会议 : ICRA 2023 (IEEE International Conference on Robotics and Automation)
项目主页 : https://antonilo.github.io/vision_locomotion/
代码 : https://github.com/antonilo/vision_locomotion
Arxiv: https://arxiv.org/abs/2211.03785


文章摘要:本文解读了ICRA 2023收录的《Learning Visual Locomotion with Cross-Modal Supervision》论文。该研究提出**跨模态监督(CMS)**算法,利用时间平移的本体感知作为自监督信号,在真实世界中训练四足机器人的单目RGB视觉行走策略。核心思路是:在仿真器中训练可"作弊"获取地形高度的盲走策略,再通过CMS在真实世界中训练视觉模块预测前方地形高度,从而避免RGB仿真的sim-to-real鸿沟。实验表明,仅需不到30分钟真实世界数据,即可将盲策略的50%成功率提升至100%,行走速度提高26%。CMS还天然支持终身持续学习,并通过棱镜适应实验验证了系统的视觉可塑性。


一、研究背景与核心问题

1.1 研究动机

Gibson 曾提出著名论断:"我们为了移动而看,我们为了看而移动"。对于陆地动物而言,可以解读为"我们为了行走而看,我们为了行走而走"。从字面意义上讲,盲人确实可以行走,盲机器人也可以行走(如RMA),但Gibson并非全然错误------虽然盲人可以行走,但在复杂地形(如楼梯)上会感到极其困难且无法快速行走。他们必须先用拐杖小心探测前方才能安全行走。

人类视觉研究表明,视觉为我们提供了**"前瞻"(look-ahead)**能力------当我们能看到前方的地面时,我们的落脚更平滑,行走更高效。这种前瞻与行走策略紧密耦合。本文将这一研究思路拓展到机器人领域:为四足机器人开发行走策略,利用视觉系统进行前瞻------预测机器人前方地形的高度

1.2 关键科学问题与技术挑战

核心问题 :如何训练仅使用单目RGB相机和**本体感知(proprioception)**的视觉行走策略?

具体挑战包括:

  1. RGB渲染的Sim-to-Real鸿沟

    • 仿真器中渲染的RGB图像与真实世界图像差异巨大;
    • 渲染逼真度越高,计算成本越大,在高样本复杂度的RL训练内循环中使用RGB渲染是不可行的;
    • 这与深度输入形成鲜明对比:深度的sim-to-real差距小,多个系统已成功从仿真迁移到真实世界。
  2. 视觉训练的"鸡生蛋、蛋生鸡"悖论

    • 要开发能为行走提供前瞻的视觉系统,首先需要能够行走以收集数据来监督视觉系统;
    • 幸运的是,不存在无限递归问题:机器人可以从盲走策略(即使笨拙)开始引导(bootstrap)。
  3. RGB输入的维度爆炸与计算约束

    • 图像的高维度使端到端视觉运动训练比纯本体感知训练困难得多;
    • 在有限机载计算资源上实现实时视觉推理。
  4. 真实世界终身学习

    • 如何在机器人部署过程中,利用自身经验持续改进视觉地形预测能力,进而提升整体行走性能。

二、研究方法与技术路线

2.1 总体框架

本文的核心洞察是:视觉部分可以在真实世界中从机载传感器训练,而动作策略仍可在仿真器中训练

具体思路:

  1. 在仿真器中训练一个盲走策略 (πblind\pi_{blind}πblind),该策略可以"作弊"------获知前方若干"前瞻点"的地形高度;
  2. 在真实世界中,单独训练一个视觉系统,从RGB图像预测前瞻点的地形高度;
  3. 视觉系统通过跨模态监督(Cross-Modal Supervision, CMS) 进行训练------利用时间平移的本体感知作为监督信号。

2.2 仿真训练阶段

2.2.1 策略结构

在仿真中训练两个行走策略:π\piπ(前瞻策略) πblind\pi_{blind}πblind(盲策略)

状态输入
xt=[qt,qt′,at−1,zt,γt]⊤x_t = [q_t, q't, a{t-1}, z_t, \gamma_t]^{\top}xt=[qt,qt′,at−1,zt,γt]⊤

  • qt∈R12q_t \in \mathbb{R}^{12}qt∈R12:当前关节位置
  • qt′∈R12q'_t \in \mathbb{R}^{12}qt′∈R12:关节速度
  • at−1∈R12a_{t-1} \in \mathbb{R}^{12}at−1∈R12:前一时刻动作
  • zt∈R8z_t \in \mathbb{R}^8zt∈R8:外在向量(环境参数潜在编码)
  • γt\gamma_tγt:机器人脚下地形几何的潜在表示

关键变量定义

  • zt=μ(et)z_t = \mu(e_t)zt=μ(et):环境因子编码器将物理参数编码为8维潜在向量
    • ete_tet 包含:负载、电机强度、脚接触二值指示、线速度、摩擦系数等
  • γt=δ(ht)\gamma_t = \delta(h_t)γt=δ(ht):地形几何编码器将地形高度编码为潜在表示
  • γt+Δt=δ(ht+Δt)\gamma_{t+\Delta t} = \delta(h_{t+\Delta t})γt+Δt=δ(ht+Δt):前瞻地形编码------机器人前方15cm处的地形估计

策略输出

前瞻策略(π\piπ):
at=π(xt,zt,γt,γt+Δt)a_t = \pi(x_t, z_t, \gamma_t, \gamma_{t+\Delta t})at=π(xt,zt,γt,γt+Δt)

盲策略(πblind\pi_{blind}πblind):
at=πblind(xt,zt,γt)a_t = \pi_{blind}(x_t, z_t, \gamma_t)at=πblind(xt,zt,γt)

网络架构

  • μ\muμ、π\piπ、πblind\pi_{blind}πblind均为两层MLP,隐藏维度分别为[256,128][256, 128][256,128]和[128,128][128, 128][128,128];
  • δ\deltaδ为[64,16][64, 16][64,16]的MLP,γt\gamma_tγt和γt+Δt\gamma_{t+\Delta t}γt+Δt共享同一δ\deltaδ网络。
2.2.2 训练流程
  1. 先训练盲策略 :联合训练 πblind\pi_{blind}πblind 和相关编码器(μ\muμ、δ\deltaδ),使用无模型RL端到端训练;
  2. 冻结编码器,再训练前瞻策略 :冻结 δ\deltaδ 和 μ\muμ,仅训练 π\piπ。
2.2.3 环境设计
  • 分形地形:与RMA类似,在分形地形上训练;
  • 参数化楼梯 :灵感来自建筑学经典参考------舒适的楼梯高度应为[10,19][10, 19][10,19]cm,长度不小于30cm;高度近似为2×rise+going≈1002 \times \text{rise} + \text{going} \approx 1002×rise+going≈100cm。据此,作者采样楼梯高度在[10,21][10, 21][10,21]cm范围,台阶长度从{30,40,50,60}\{30, 40, 50, 60\}{30,40,50,60}cm中选取。
  • 斜坡:参数化斜坡。
2.2.4 奖励函数设计
奖励项 公式 权重 物理意义
前进速度 min⁡(vxd,vx)\min(v_x^d, v_x)min(vxd,vx) 65 鼓励达到目标前进速度 vxd∈[0,0.5]v_x^d \in [0, 0.5]vxd∈[0,0.5] m/s
横向速度 ∣vy∣|v_y|∣vy∣ 1 抑制横向漂移
角速度 −∣wzd−wz∣+wxd-|w_z^d - w_z| + w_x^d−∣wzd−wz∣+wxd 40 跟踪目标角速度 wzd∈[−0.4,0.4]w_z^d \in [-0.4, 0.4]wzd∈[−0.4,0.4] rad/s
做功 −∣τ⊤⋅(αt−αt−1)∣-|\tau^{\top} \cdot (\alpha_t - \alpha_{t-1})|−∣τ⊤⋅(αt−αt−1)∣ 0.05 最小化关节做功
足部滑动 −∣diag(g)t⋅vft∣-|\text{diag}(g)_t \cdot v_f^t|−∣diag(g)t⋅vft∣ 0.2 减少支撑足滑动

此外,还包含:

  • 生存奖励(权重9):在楼梯上时加倍,鼓励持续行走;
  • 环境参数:从RMA报告中随机采样负载、摩擦、电机强度等。
2.2.5 训练课程
  1. 阶段一:平坦地形上训练5亿步;
  2. 阶段二:逐渐增加楼梯难度------从10cm高度起步,每1亿步增加台阶高度直至最大值;
  3. 防遗忘:楼梯训练中以10%概率采样平坦地形;
  4. 动作正则化:添加回归损失匹配仅在平坦地形上训练的策略的动作。
2.2.6 Sim-to-Real 迁移

为将盲策略 πblind\pi_{blind}πblind 迁移到真实世界,训练一个网络 g0g_0g0 从本体感知和动作历史中预测 ztz_tzt 和 γt\gamma_tγt,采用与RMA相同的结构和训练过程。

2.3 跨模态监督(CMS)------核心算法

2.3.1 核心思想

CMS使用时间平移的本体感知来监督视觉

我看前方的一个点A,其高度当前未知。但当我的脚到达A时,其高度可以从我的身体关节角度推断出来。

这构成了自监督学习范式------监督信号来自机载传感器,不需要人工标注。

2.3.2 数据收集与训练

数据集构建
D={(It,xt),γt}\mathcal{D} = \{(I_t, x_t), \gamma_t\}D={(It,xt),γt}

  • ItI_tIt:机载RGB相机的自我中心视觉输入
  • xtx_txt:当前本体感知状态
  • γt\gamma_tγt:通过本体感知估计的当前地形几何(作为监督目标)

CNN视觉估计器架构

  1. 输入:最近三帧灰度图像(15Hz,拼接为输入张量)
  2. 特征提取:ShuffleNet-V2(保留全局平均池化前的最后一层以维持空间信息)
  3. 维度压缩:1D卷积将特征投影到2维通道空间
  4. 多模态融合:提供50步IMU测量历史(roll、pitch)和期望速度指令 → 经预测器输出128维嵌入 → 与ShuffleNet特征拼接
  5. 最终预测 :MLP([128,64][128, 64][128,64])预测 γ\gammaγ

训练目标

在收集的数据集 D\mathcal{D}D 上通过监督学习训练视觉网络 gig_igi,使其能从视觉输入估计当前外在向量 ztz_tzt 和未来地形几何 γt+Δt\gamma_{t+\Delta t}γt+Δt:
z^t,γ^t+Δt=gi(It,xt)\hat{z}t, \hat{\gamma}{t+\Delta t} = g_i(I_t, x_t)z^t,γ^t+Δt=gi(It,xt)

最小化 CMS 误差(ztz_tzt 和 γt+Δt\gamma_{t+\Delta t}γt+Δt 的预测误差)。

2.4 终身持续学习(Lifelong Learning via CMS)

CMS自然支持终身学习:

  • 机器人部署过程中持续收集数据集 D\mathcal{D}D;
  • 实时使用本体感知的 γ\gammaγ 估计作为监督信号;
  • 在执行过程中持续训练视觉前瞻地形预测器;
  • 正向循环:更好的视觉预测 → 更好的行走 → 更高质量的数据 → 更好的视觉预测。

2.5 部署架构

模块 运行频率 功能
自适应模块(g) ~10 Hz 从本体感知历史预测 ztz_tzt、γt\gamma_tγt
视觉估计器(gig_igi) 15 Hz 从RGB图像预测 z^t\hat{z}tz^t、γ^t+Δt\hat{\gamma}{t+\Delta t}γ^t+Δt
电机策略(π\piπ) 100 Hz 接收状态和预测,生成目标关节角度

注:视觉估计器与自适应模块独立运行,基础策略融合两者的输出。


三、实验设计与结果分析

3.1 实验平台

配置项 规格
硬件平台 Unitree A1 四足机器人
视觉传感器 单目RGB相机(15Hz,灰度化处理)
本体感知 电机编码器 + IMU + 足部接触传感器
仿真器 RaiSim(刚性体 + 接触动力学)
控制方式 位置控制 + PD控制器(100Hz)
单次Episode 最长1200步,早终止条件:roll/pitch超限或底座过低
仿真时间步 0.025s

3.2 盲策略 vs 视觉策略行为分析

图3关键分析

特性 盲策略(Blind) 视觉策略(Vision)
γ\gammaγ 估计方式 实时本体感知 视觉前瞻预测
楼梯接近行为 笨拙的"探索式"------需要触碰楼梯两次才能正确估计高度 预知地形几何,提前调整步态
初始爬升速度 较慢 约提升2倍
步态特征 踉跄、试探 平滑、敏捷
成功率 约50% 可达100%

3.3 终身学习实验------四楼梯持续改进

对4个不同规格的楼梯(高度12.7-19cm,台阶长度29-43cm),跨4天持续收集数据并评估:

阶段 数据量 成功率 距离指标 完成时间
盲策略(Day 0) 0 40-60% 0.51-0.82 7-28s
Day I ~7 min 40-60% 0.71-0.89 7-27s
Day II ~14 min 60-80% 0.75-0.86 6-26s
Day III ~21 min 100% 1.0 6-23s

关键发现

  • 仅需不到30分钟的真实世界数据(跨4天),所有楼梯成功率均达到100%;
  • 视觉策略平均行走速度比盲策略提高26%
  • 成功率提高50个百分点

3.4 数据收集效率分析

对比项 盲策略收集数据 视觉策略收集数据
单次实验平均数据量 基线 +21%
数据质量 偶尔踉跄/触碰导致损坏数据 步态精确,数据质量高
训练效果 同等数据量下性能更差 同等数据量下性能更优

结论:使用最新视觉策略(而非初始盲策略)收集数据能实现更快的收敛------因为视觉策略可以走更长时间不掉落,显著提高真实世界数据收集效率。

3.5 泛化实验

地形 成功率 说明
未见过的楼梯 80% 视觉模块从未训练过
路缘石(curbs) 100% 最高20cm
陡坡(35°) 60% 滑溜斜坡

注:跨校区泛化------在Berkeley校区训练后在Stanford校区验证。

3.6 视觉前置量消融实验(仿真)

前瞻距离 成功率(↑) TTF(↑) 距离(m)(↑) 平滑性(↓)
0cm(RMA等同) 58% 0.83 4.11 44.30
5cm 64% 0.88 4.67 34.19
15cm 75% 0.95 4.73 30.77
25cm 74% 0.96 4.96 37.19
35cm 74% 0.94 4.66 31.43

结论 :前瞻距离从0cm增加到15cm时,成功率从58%急剧跃升至75%(+17个百分点),此后趋于饱和,证明15cm是性价比最优的前瞻距离。

3.7 棱镜适应实验(Prism Adaptation Test)

这是视觉运动领域广为人知的"棱镜测试"------测试系统对视觉场人工位移的适应能力:

阶段 描述 机器人表现
Pre-test(预测试) 相机处于标称位置 完美爬楼梯
Exposure(暴露) 相机绕偏航轴旋转约30° 眼眶楼梯、水平漂移
Adaptation(适应期1) 微调最后3层 经过3次试验(~80秒数据)恢复预期能力和直行
Post-test I(返回测试1) 相机回到原位 踉跄
Post-test II(返回测试2) 再次微调 经过2次试验重新适应原始视觉场

适应机制 :每次试验后,最小化CMS误差,仅微调γ\gammaγ预测器的最后3层,训练10个epoch。

结论 :CMS使策略具备显著的视觉可塑性------在极少量数据(~1分钟)下即可适应视觉场的大幅偏移。


四、主要创新点与学术贡献

4.1 核心创新

  1. 跨模态监督(CMS)------全新的视觉训练范式

    • 首次使用时间平移的本体感知作为自监督信号训练视觉模块;
    • 完全在真实世界中训练视觉部分,避免了RGB仿真渲染的sim-to-real鸿沟;
    • 监督信号来自机载传感器,无需人工标注,实现完全自主的真机学习。
  2. "盲→视觉"的优雅引导策略

    • 从仿真训练的盲策略起步(可与RMA等现有框架兼容);
    • 盲策略收集的数据用于训练视觉模块;
    • 视觉模块训练好后切换到前瞻策略;
    • 解决"鸡生蛋"悖论的实用方案。
  3. 终身持续学习(Lifelong Learning)能力

    • CMS使机器人能够在部署过程中不断自我改进;
    • 正向反馈循环:更好的视觉 → 更好的行走 → 更高质量数据 → 更好的视觉;
    • 仅需每天7分钟数据即可实现显著性能提升。
  4. 单目RGB的纯视觉行走

    • 放弃深度传感器(LiDAR/立体相机),仅使用单目RGB相机;
    • 在低成本机器人上实现复杂的视觉行走;
    • 展示了RGB-only设计在足式机器人领域的可行性与优势。

4.2 技术贡献

  1. 多模态特征融合的视觉估计器设计

    • ShuffleNet-V2提取空间特征(保留空间信息);
    • 1D卷积 + MLP融合视觉特征与IMU历史/速度指令;
    • 在有限计算资源下实现实时推理。
  2. 前瞻地形编码机制

    • γt\gamma_tγt(脚下地形)和 γt+Δt\gamma_{t+\Delta t}γt+Δt(前方15cm地形)共享编码器 δ\deltaδ;
    • 仿真中真值可用预处理训练,真实世界中通过CMS估计;
    • 消融实验系统验证了15cm为最优前瞻距离。
  3. 参数化楼梯生成与课程学习

    • 基于建筑学标准的物理合理楼梯分布;
    • 两级课程:平面→渐进式楼梯难度递增;
    • 防遗忘机制:楼梯训练中混合平坦地形采样。
  4. Sim-to-Real迁移的渐进策略

    • 盲策略 → 自适应模块 → 视觉模块的三层递进;
    • 每个阶段独立训练和验证,便于问题定位。

4.3 实验贡献

  • 首个使用CMS在真实世界中系统训练视觉行走策略的工作;
  • 最多的真实世界楼梯和地形上系统评估视觉行走性能;
  • 验证视觉策略的跨校区泛化(Berkeley → Stanford);
  • 首次在机器人平台上实现棱镜适应实验,展示视觉可塑性;
  • 系统消融实验验证视觉前瞻距离的最优值。

五、与相关工作的对比

方法 传感器要求 计算成本 真实世界性能 持续学习能力
CMS(本文) 单目RGB + IMU 低(可在A1上实时运行) 高(各种复杂地形) ✅ 天然支持
RMA [Kumar 2021] 仅本体感知 中等(盲走)
Miki et al. 2022 3 LiDAR + 8立体模块 极高
Miki et al. 2022 LiDAR/立体相机 中-高
传统模块化方法 深度传感器 中-高 受限于手工特征

六、局限性与未来方向

6.1 局限性

  1. 仅改善视觉模块,不改善电机模块

    • CMS框架仅更新视觉预测器,电机策略在真实世界中保持固定;
    • 电机策略的局限性(如RMA的盲策略)在极端地形上可能成为瓶颈。
  2. 地形覆盖的局限性

    • 未覆盖所有真实世界地形类型(如碎石、冰面等);
    • 35°陡坡仅60%成功率,仍有提升空间。
  3. 单目RGB的固有局限

    • 无深度信息,对光照变化敏感;
    • 无法直接感知透明/镜面表面。
  4. 依赖盲策略的初始质量

    • 如果盲策略在某种地形上完全无法行走,无法收集数据训练视觉模块。

6.2 未来方向

  1. CMS + 电机策略联合在线改进

    • 在真实世界中同时改善视觉系统和电机策略;
    • 实现端到端的终身学习。
  2. 融合更多模态

    • 触觉反馈、力传感器等多模态信息;
    • 更好的地形分类与自适应。
  3. 扩展到其他机器人平台

    • 双足机器人视觉行走;
    • 人形机器人视觉运动。
  4. 更复杂的视觉任务

    • 视觉导航 + 地形适应的联合学习;
    • 长期规划与短期自适应的融合。

七、总结

本文提出了跨模态监督(Cross-Modal Supervision, CMS)算法,解决了在真实世界中训练单目RGB视觉行走策略的核心挑战。CMS利用时间平移的本体感知作为自监督信号来训练视觉模块,天然支持终身持续学习。

核心贡献可归纳为:

  1. 方法论创新:CMS提供了一种全新的范式------在真实世界中从机载传感器以自监督方式训练视觉部分,避免RGB仿真的sim-to-real鸿沟;
  2. 系统设计:优雅的"盲策略→视觉模块"引导方案,实现了从仿真到真实世界的平滑过渡;
  3. 实验验证:在不到30分钟真实世界数据内,将盲策略从50%成功率提升至100%,视觉策略平均速度提高26%;
  4. 深度洞察:通过棱镜适应实验展示了视觉可塑性,通过前瞻消融实验验证了15cm最优前瞻距离。

CMS为足式机器人的视觉行走提供了一条实用且优雅的路径,证明了即使在有限计算资源的低成本机器人上,仅使用单目RGB相机也能实现复杂的视觉运动行为。


八、关键术语表

术语 英文 解释
跨模态监督 Cross-Modal Supervision (CMS) 使用时间平移的本体感知作为监督信号训练视觉模块
前瞻 Look-ahead 机器人对前方地形几何的预测能力
视觉前瞻 Visual Lookahead 通过视觉传感器预测前方地形高度
盲策略 Blind Policy 不使用视觉,仅依赖本体感知的行走策略
前瞻策略 Lookahead Policy 使用视觉前瞻地形信息的行走策略
时间平移本体感知 Time-Shifted Proprioception 当前时间步看到的前方地形,在未来的本体感知中可被精确估计
终身学习 Lifelong Learning 在部署过程中持续利用新数据改进模型
棱镜适应测试 Prism Adaptation Test 测试系统适应视觉场偏移能力的经典实验
视觉可塑性 Visual Plasticity 视觉系统适应视觉输入变化的能力
自监督学习 Self-Supervised Learning 使用机载传感器生成监督信号,无需人工标注
分形地形 Fractal Terrain 使用分形算法生成的不规则模拟地形
ShuffleNet-V2 --- 轻量级CNN特征提取网络
本体感知 Proprioception 机器人通过内部传感器感知自身关节状态
自我中心视觉 Egocentric Vision 从机器人第一人称视角采集的视觉数据
RMA Rapid Motor Adaptation 快速电机自适应算法(本文的前置工作)
相关推荐
豆豆2 天前
WordPress至PageAdmin CMS跨平台迁移技术指南:应对环境约束的系统化过渡方案
cms·wordpress·建站系统·内容管理系统·网站管理系统·pageadmin
guizhoumen3 天前
2026集团网站建设指南及CMS站群软件系统的选型
cms·网站建设·网站制作·站群系统
豆豆3 天前
建站系统、CMS、自助建站平台:它们到底有什么区别?
cms·网站建设·saas·建站系统·建站平台·网站管理系统·内容管理系统、
豆豆4 天前
2026年主流CMS技术选型对比:从架构特性到适用场景的深度解析
ai·架构·cms·建站系统·建站平台·内容管理系统·网站管理系统
豆豆5 天前
信创环境下CMS国产化适配实践:以.NET Core路线为例的技术验证
.netcore·cms·信创·国产化·建站系统·内容管理系统·网站管理系统
豆豆6 天前
面向企业级架构CMS 建站系统演进:技术底座剖析与现代化选型指南
cms·网站建设·建站系统·建站·建站平台·内容管理系统·网站管理系统
豆豆7 天前
AI时代CMS选型:PageAdmin、WordPress等主流系统深度对比评测
ai·cms·建站系统·建站平台·自助建站·内容管理系统·网站管理系统
豆豆7 天前
国内互联网环境下的网站建设实战:基于 PageAdmin CMS 标准落地步骤
cms·网站建设·网站制作·网站开发·建站·网站创建·建网站
guizhoumen8 天前
分享4款功能强大的CMS建站系统
cms·建站系统·内容管理系统·cms系统