Learning Visual Locomotion with Cross-Modal Supervision 文献解读
论文标题 : Learning Visual Locomotion with Cross-Modal Supervision
作者 : Antonio Loquercio*, Ashish Kumar*, Jitendra Malik (UC Berkeley,*表示同等贡献)
发表会议 : ICRA 2023 (IEEE International Conference on Robotics and Automation)
项目主页 : https://antonilo.github.io/vision_locomotion/
代码 : https://github.com/antonilo/vision_locomotion
Arxiv: https://arxiv.org/abs/2211.03785
文章摘要:本文解读了ICRA 2023收录的《Learning Visual Locomotion with Cross-Modal Supervision》论文。该研究提出**跨模态监督(CMS)**算法,利用时间平移的本体感知作为自监督信号,在真实世界中训练四足机器人的单目RGB视觉行走策略。核心思路是:在仿真器中训练可"作弊"获取地形高度的盲走策略,再通过CMS在真实世界中训练视觉模块预测前方地形高度,从而避免RGB仿真的sim-to-real鸿沟。实验表明,仅需不到30分钟真实世界数据,即可将盲策略的50%成功率提升至100%,行走速度提高26%。CMS还天然支持终身持续学习,并通过棱镜适应实验验证了系统的视觉可塑性。
一、研究背景与核心问题
1.1 研究动机
Gibson 曾提出著名论断:"我们为了移动而看,我们为了看而移动"。对于陆地动物而言,可以解读为"我们为了行走而看,我们为了行走而走"。从字面意义上讲,盲人确实可以行走,盲机器人也可以行走(如RMA),但Gibson并非全然错误------虽然盲人可以行走,但在复杂地形(如楼梯)上会感到极其困难且无法快速行走。他们必须先用拐杖小心探测前方才能安全行走。
人类视觉研究表明,视觉为我们提供了**"前瞻"(look-ahead)**能力------当我们能看到前方的地面时,我们的落脚更平滑,行走更高效。这种前瞻与行走策略紧密耦合。本文将这一研究思路拓展到机器人领域:为四足机器人开发行走策略,利用视觉系统进行前瞻------预测机器人前方地形的高度。
1.2 关键科学问题与技术挑战
核心问题 :如何训练仅使用单目RGB相机和**本体感知(proprioception)**的视觉行走策略?
具体挑战包括:
-
RGB渲染的Sim-to-Real鸿沟:
- 仿真器中渲染的RGB图像与真实世界图像差异巨大;
- 渲染逼真度越高,计算成本越大,在高样本复杂度的RL训练内循环中使用RGB渲染是不可行的;
- 这与深度输入形成鲜明对比:深度的sim-to-real差距小,多个系统已成功从仿真迁移到真实世界。
-
视觉训练的"鸡生蛋、蛋生鸡"悖论:
- 要开发能为行走提供前瞻的视觉系统,首先需要能够行走以收集数据来监督视觉系统;
- 幸运的是,不存在无限递归问题:机器人可以从盲走策略(即使笨拙)开始引导(bootstrap)。
-
RGB输入的维度爆炸与计算约束:
- 图像的高维度使端到端视觉运动训练比纯本体感知训练困难得多;
- 在有限机载计算资源上实现实时视觉推理。
-
真实世界终身学习:
- 如何在机器人部署过程中,利用自身经验持续改进视觉地形预测能力,进而提升整体行走性能。
二、研究方法与技术路线
2.1 总体框架
本文的核心洞察是:视觉部分可以在真实世界中从机载传感器训练,而动作策略仍可在仿真器中训练。
具体思路:
- 在仿真器中训练一个盲走策略 (πblind\pi_{blind}πblind),该策略可以"作弊"------获知前方若干"前瞻点"的地形高度;
- 在真实世界中,单独训练一个视觉系统,从RGB图像预测前瞻点的地形高度;
- 视觉系统通过跨模态监督(Cross-Modal Supervision, CMS) 进行训练------利用时间平移的本体感知作为监督信号。
2.2 仿真训练阶段
2.2.1 策略结构
在仿真中训练两个行走策略:π\piπ(前瞻策略)和 πblind\pi_{blind}πblind(盲策略)。
状态输入 :
xt=[qt,qt′,at−1,zt,γt]⊤x_t = [q_t, q't, a{t-1}, z_t, \gamma_t]^{\top}xt=[qt,qt′,at−1,zt,γt]⊤
- qt∈R12q_t \in \mathbb{R}^{12}qt∈R12:当前关节位置
- qt′∈R12q'_t \in \mathbb{R}^{12}qt′∈R12:关节速度
- at−1∈R12a_{t-1} \in \mathbb{R}^{12}at−1∈R12:前一时刻动作
- zt∈R8z_t \in \mathbb{R}^8zt∈R8:外在向量(环境参数潜在编码)
- γt\gamma_tγt:机器人脚下地形几何的潜在表示
关键变量定义:
- zt=μ(et)z_t = \mu(e_t)zt=μ(et):环境因子编码器将物理参数编码为8维潜在向量
- ete_tet 包含:负载、电机强度、脚接触二值指示、线速度、摩擦系数等
- γt=δ(ht)\gamma_t = \delta(h_t)γt=δ(ht):地形几何编码器将地形高度编码为潜在表示
- γt+Δt=δ(ht+Δt)\gamma_{t+\Delta t} = \delta(h_{t+\Delta t})γt+Δt=δ(ht+Δt):前瞻地形编码------机器人前方15cm处的地形估计
策略输出:
前瞻策略(π\piπ):
at=π(xt,zt,γt,γt+Δt)a_t = \pi(x_t, z_t, \gamma_t, \gamma_{t+\Delta t})at=π(xt,zt,γt,γt+Δt)
盲策略(πblind\pi_{blind}πblind):
at=πblind(xt,zt,γt)a_t = \pi_{blind}(x_t, z_t, \gamma_t)at=πblind(xt,zt,γt)
网络架构:
- μ\muμ、π\piπ、πblind\pi_{blind}πblind均为两层MLP,隐藏维度分别为[256,128][256, 128][256,128]和[128,128][128, 128][128,128];
- δ\deltaδ为[64,16][64, 16][64,16]的MLP,γt\gamma_tγt和γt+Δt\gamma_{t+\Delta t}γt+Δt共享同一δ\deltaδ网络。
2.2.2 训练流程
- 先训练盲策略 :联合训练 πblind\pi_{blind}πblind 和相关编码器(μ\muμ、δ\deltaδ),使用无模型RL端到端训练;
- 冻结编码器,再训练前瞻策略 :冻结 δ\deltaδ 和 μ\muμ,仅训练 π\piπ。
2.2.3 环境设计
- 分形地形:与RMA类似,在分形地形上训练;
- 参数化楼梯 :灵感来自建筑学经典参考------舒适的楼梯高度应为[10,19][10, 19][10,19]cm,长度不小于30cm;高度近似为2×rise+going≈1002 \times \text{rise} + \text{going} \approx 1002×rise+going≈100cm。据此,作者采样楼梯高度在[10,21][10, 21][10,21]cm范围,台阶长度从{30,40,50,60}\{30, 40, 50, 60\}{30,40,50,60}cm中选取。
- 斜坡:参数化斜坡。
2.2.4 奖励函数设计
| 奖励项 | 公式 | 权重 | 物理意义 |
|---|---|---|---|
| 前进速度 | min(vxd,vx)\min(v_x^d, v_x)min(vxd,vx) | 65 | 鼓励达到目标前进速度 vxd∈[0,0.5]v_x^d \in [0, 0.5]vxd∈[0,0.5] m/s |
| 横向速度 | ∣vy∣|v_y|∣vy∣ | 1 | 抑制横向漂移 |
| 角速度 | −∣wzd−wz∣+wxd-|w_z^d - w_z| + w_x^d−∣wzd−wz∣+wxd | 40 | 跟踪目标角速度 wzd∈[−0.4,0.4]w_z^d \in [-0.4, 0.4]wzd∈[−0.4,0.4] rad/s |
| 做功 | −∣τ⊤⋅(αt−αt−1)∣-|\tau^{\top} \cdot (\alpha_t - \alpha_{t-1})|−∣τ⊤⋅(αt−αt−1)∣ | 0.05 | 最小化关节做功 |
| 足部滑动 | −∣diag(g)t⋅vft∣-|\text{diag}(g)_t \cdot v_f^t|−∣diag(g)t⋅vft∣ | 0.2 | 减少支撑足滑动 |
此外,还包含:
- 生存奖励(权重9):在楼梯上时加倍,鼓励持续行走;
- 环境参数:从RMA报告中随机采样负载、摩擦、电机强度等。
2.2.5 训练课程
- 阶段一:平坦地形上训练5亿步;
- 阶段二:逐渐增加楼梯难度------从10cm高度起步,每1亿步增加台阶高度直至最大值;
- 防遗忘:楼梯训练中以10%概率采样平坦地形;
- 动作正则化:添加回归损失匹配仅在平坦地形上训练的策略的动作。
2.2.6 Sim-to-Real 迁移
为将盲策略 πblind\pi_{blind}πblind 迁移到真实世界,训练一个网络 g0g_0g0 从本体感知和动作历史中预测 ztz_tzt 和 γt\gamma_tγt,采用与RMA相同的结构和训练过程。
2.3 跨模态监督(CMS)------核心算法
2.3.1 核心思想
CMS使用时间平移的本体感知来监督视觉:
我看前方的一个点A,其高度当前未知。但当我的脚到达A时,其高度可以从我的身体关节角度推断出来。
这构成了自监督学习范式------监督信号来自机载传感器,不需要人工标注。
2.3.2 数据收集与训练
数据集构建 :
D={(It,xt),γt}\mathcal{D} = \{(I_t, x_t), \gamma_t\}D={(It,xt),γt}
- ItI_tIt:机载RGB相机的自我中心视觉输入
- xtx_txt:当前本体感知状态
- γt\gamma_tγt:通过本体感知估计的当前地形几何(作为监督目标)
CNN视觉估计器架构:
- 输入:最近三帧灰度图像(15Hz,拼接为输入张量)
- 特征提取:ShuffleNet-V2(保留全局平均池化前的最后一层以维持空间信息)
- 维度压缩:1D卷积将特征投影到2维通道空间
- 多模态融合:提供50步IMU测量历史(roll、pitch)和期望速度指令 → 经预测器输出128维嵌入 → 与ShuffleNet特征拼接
- 最终预测 :MLP([128,64][128, 64][128,64])预测 γ\gammaγ
训练目标 :
在收集的数据集 D\mathcal{D}D 上通过监督学习训练视觉网络 gig_igi,使其能从视觉输入估计当前外在向量 ztz_tzt 和未来地形几何 γt+Δt\gamma_{t+\Delta t}γt+Δt:
z^t,γ^t+Δt=gi(It,xt)\hat{z}t, \hat{\gamma}{t+\Delta t} = g_i(I_t, x_t)z^t,γ^t+Δt=gi(It,xt)
最小化 CMS 误差(ztz_tzt 和 γt+Δt\gamma_{t+\Delta t}γt+Δt 的预测误差)。
2.4 终身持续学习(Lifelong Learning via CMS)
CMS自然支持终身学习:
- 机器人部署过程中持续收集数据集 D\mathcal{D}D;
- 实时使用本体感知的 γ\gammaγ 估计作为监督信号;
- 在执行过程中持续训练视觉前瞻地形预测器;
- 正向循环:更好的视觉预测 → 更好的行走 → 更高质量的数据 → 更好的视觉预测。
2.5 部署架构
| 模块 | 运行频率 | 功能 |
|---|---|---|
| 自适应模块(g) | ~10 Hz | 从本体感知历史预测 ztz_tzt、γt\gamma_tγt |
| 视觉估计器(gig_igi) | 15 Hz | 从RGB图像预测 z^t\hat{z}tz^t、γ^t+Δt\hat{\gamma}{t+\Delta t}γ^t+Δt |
| 电机策略(π\piπ) | 100 Hz | 接收状态和预测,生成目标关节角度 |
注:视觉估计器与自适应模块独立运行,基础策略融合两者的输出。
三、实验设计与结果分析
3.1 实验平台
| 配置项 | 规格 |
|---|---|
| 硬件平台 | Unitree A1 四足机器人 |
| 视觉传感器 | 单目RGB相机(15Hz,灰度化处理) |
| 本体感知 | 电机编码器 + IMU + 足部接触传感器 |
| 仿真器 | RaiSim(刚性体 + 接触动力学) |
| 控制方式 | 位置控制 + PD控制器(100Hz) |
| 单次Episode | 最长1200步,早终止条件:roll/pitch超限或底座过低 |
| 仿真时间步 | 0.025s |
3.2 盲策略 vs 视觉策略行为分析
图3关键分析:
| 特性 | 盲策略(Blind) | 视觉策略(Vision) |
|---|---|---|
| γ\gammaγ 估计方式 | 实时本体感知 | 视觉前瞻预测 |
| 楼梯接近行为 | 笨拙的"探索式"------需要触碰楼梯两次才能正确估计高度 | 预知地形几何,提前调整步态 |
| 初始爬升速度 | 较慢 | 约提升2倍 |
| 步态特征 | 踉跄、试探 | 平滑、敏捷 |
| 成功率 | 约50% | 可达100% |
3.3 终身学习实验------四楼梯持续改进
对4个不同规格的楼梯(高度12.7-19cm,台阶长度29-43cm),跨4天持续收集数据并评估:
| 阶段 | 数据量 | 成功率 | 距离指标 | 完成时间 |
|---|---|---|---|---|
| 盲策略(Day 0) | 0 | 40-60% | 0.51-0.82 | 7-28s |
| Day I | ~7 min | 40-60% | 0.71-0.89 | 7-27s |
| Day II | ~14 min | 60-80% | 0.75-0.86 | 6-26s |
| Day III | ~21 min | 100% | 1.0 | 6-23s |
关键发现:
- 仅需不到30分钟的真实世界数据(跨4天),所有楼梯成功率均达到100%;
- 视觉策略平均行走速度比盲策略提高26%;
- 成功率提高50个百分点。
3.4 数据收集效率分析
| 对比项 | 盲策略收集数据 | 视觉策略收集数据 |
|---|---|---|
| 单次实验平均数据量 | 基线 | +21% |
| 数据质量 | 偶尔踉跄/触碰导致损坏数据 | 步态精确,数据质量高 |
| 训练效果 | 同等数据量下性能更差 | 同等数据量下性能更优 |
结论:使用最新视觉策略(而非初始盲策略)收集数据能实现更快的收敛------因为视觉策略可以走更长时间不掉落,显著提高真实世界数据收集效率。
3.5 泛化实验
| 地形 | 成功率 | 说明 |
|---|---|---|
| 未见过的楼梯 | 80% | 视觉模块从未训练过 |
| 路缘石(curbs) | 100% | 最高20cm |
| 陡坡(35°) | 60% | 滑溜斜坡 |
注:跨校区泛化------在Berkeley校区训练后在Stanford校区验证。
3.6 视觉前置量消融实验(仿真)
| 前瞻距离 | 成功率(↑) | TTF(↑) | 距离(m)(↑) | 平滑性(↓) |
|---|---|---|---|---|
| 0cm(RMA等同) | 58% | 0.83 | 4.11 | 44.30 |
| 5cm | 64% | 0.88 | 4.67 | 34.19 |
| 15cm | 75% | 0.95 | 4.73 | 30.77 |
| 25cm | 74% | 0.96 | 4.96 | 37.19 |
| 35cm | 74% | 0.94 | 4.66 | 31.43 |
结论 :前瞻距离从0cm增加到15cm时,成功率从58%急剧跃升至75%(+17个百分点),此后趋于饱和,证明15cm是性价比最优的前瞻距离。
3.7 棱镜适应实验(Prism Adaptation Test)
这是视觉运动领域广为人知的"棱镜测试"------测试系统对视觉场人工位移的适应能力:
| 阶段 | 描述 | 机器人表现 |
|---|---|---|
| Pre-test(预测试) | 相机处于标称位置 | 完美爬楼梯 |
| Exposure(暴露) | 相机绕偏航轴旋转约30° | 眼眶楼梯、水平漂移 |
| Adaptation(适应期1) | 微调最后3层 | 经过3次试验(~80秒数据)恢复预期能力和直行 |
| Post-test I(返回测试1) | 相机回到原位 | 踉跄 |
| Post-test II(返回测试2) | 再次微调 | 经过2次试验重新适应原始视觉场 |
适应机制 :每次试验后,最小化CMS误差,仅微调γ\gammaγ预测器的最后3层,训练10个epoch。
结论 :CMS使策略具备显著的视觉可塑性------在极少量数据(~1分钟)下即可适应视觉场的大幅偏移。
四、主要创新点与学术贡献
4.1 核心创新
-
跨模态监督(CMS)------全新的视觉训练范式
- 首次使用时间平移的本体感知作为自监督信号训练视觉模块;
- 完全在真实世界中训练视觉部分,避免了RGB仿真渲染的sim-to-real鸿沟;
- 监督信号来自机载传感器,无需人工标注,实现完全自主的真机学习。
-
"盲→视觉"的优雅引导策略
- 从仿真训练的盲策略起步(可与RMA等现有框架兼容);
- 盲策略收集的数据用于训练视觉模块;
- 视觉模块训练好后切换到前瞻策略;
- 解决"鸡生蛋"悖论的实用方案。
-
终身持续学习(Lifelong Learning)能力
- CMS使机器人能够在部署过程中不断自我改进;
- 正向反馈循环:更好的视觉 → 更好的行走 → 更高质量数据 → 更好的视觉;
- 仅需每天7分钟数据即可实现显著性能提升。
-
单目RGB的纯视觉行走
- 放弃深度传感器(LiDAR/立体相机),仅使用单目RGB相机;
- 在低成本机器人上实现复杂的视觉行走;
- 展示了RGB-only设计在足式机器人领域的可行性与优势。
4.2 技术贡献
-
多模态特征融合的视觉估计器设计
- ShuffleNet-V2提取空间特征(保留空间信息);
- 1D卷积 + MLP融合视觉特征与IMU历史/速度指令;
- 在有限计算资源下实现实时推理。
-
前瞻地形编码机制
- γt\gamma_tγt(脚下地形)和 γt+Δt\gamma_{t+\Delta t}γt+Δt(前方15cm地形)共享编码器 δ\deltaδ;
- 仿真中真值可用预处理训练,真实世界中通过CMS估计;
- 消融实验系统验证了15cm为最优前瞻距离。
-
参数化楼梯生成与课程学习
- 基于建筑学标准的物理合理楼梯分布;
- 两级课程:平面→渐进式楼梯难度递增;
- 防遗忘机制:楼梯训练中混合平坦地形采样。
-
Sim-to-Real迁移的渐进策略
- 盲策略 → 自适应模块 → 视觉模块的三层递进;
- 每个阶段独立训练和验证,便于问题定位。
4.3 实验贡献
- 首个使用CMS在真实世界中系统训练视觉行走策略的工作;
- 在最多的真实世界楼梯和地形上系统评估视觉行走性能;
- 验证视觉策略的跨校区泛化(Berkeley → Stanford);
- 首次在机器人平台上实现棱镜适应实验,展示视觉可塑性;
- 系统消融实验验证视觉前瞻距离的最优值。
五、与相关工作的对比
| 方法 | 传感器要求 | 计算成本 | 真实世界性能 | 持续学习能力 |
|---|---|---|---|---|
| CMS(本文) | 单目RGB + IMU | 低(可在A1上实时运行) | 高(各种复杂地形) | ✅ 天然支持 |
| RMA [Kumar 2021] | 仅本体感知 | 低 | 中等(盲走) | ❌ |
| Miki et al. 2022 | 3 LiDAR + 8立体模块 | 极高 | 高 | ❌ |
| Miki et al. 2022 | LiDAR/立体相机 | 高 | 中-高 | ❌ |
| 传统模块化方法 | 深度传感器 | 中-高 | 受限于手工特征 | ❌ |
六、局限性与未来方向
6.1 局限性
-
仅改善视觉模块,不改善电机模块:
- CMS框架仅更新视觉预测器,电机策略在真实世界中保持固定;
- 电机策略的局限性(如RMA的盲策略)在极端地形上可能成为瓶颈。
-
地形覆盖的局限性:
- 未覆盖所有真实世界地形类型(如碎石、冰面等);
- 35°陡坡仅60%成功率,仍有提升空间。
-
单目RGB的固有局限:
- 无深度信息,对光照变化敏感;
- 无法直接感知透明/镜面表面。
-
依赖盲策略的初始质量:
- 如果盲策略在某种地形上完全无法行走,无法收集数据训练视觉模块。
6.2 未来方向
-
CMS + 电机策略联合在线改进:
- 在真实世界中同时改善视觉系统和电机策略;
- 实现端到端的终身学习。
-
融合更多模态:
- 触觉反馈、力传感器等多模态信息;
- 更好的地形分类与自适应。
-
扩展到其他机器人平台:
- 双足机器人视觉行走;
- 人形机器人视觉运动。
-
更复杂的视觉任务:
- 视觉导航 + 地形适应的联合学习;
- 长期规划与短期自适应的融合。
七、总结
本文提出了跨模态监督(Cross-Modal Supervision, CMS)算法,解决了在真实世界中训练单目RGB视觉行走策略的核心挑战。CMS利用时间平移的本体感知作为自监督信号来训练视觉模块,天然支持终身持续学习。
核心贡献可归纳为:
- 方法论创新:CMS提供了一种全新的范式------在真实世界中从机载传感器以自监督方式训练视觉部分,避免RGB仿真的sim-to-real鸿沟;
- 系统设计:优雅的"盲策略→视觉模块"引导方案,实现了从仿真到真实世界的平滑过渡;
- 实验验证:在不到30分钟真实世界数据内,将盲策略从50%成功率提升至100%,视觉策略平均速度提高26%;
- 深度洞察:通过棱镜适应实验展示了视觉可塑性,通过前瞻消融实验验证了15cm最优前瞻距离。
CMS为足式机器人的视觉行走提供了一条实用且优雅的路径,证明了即使在有限计算资源的低成本机器人上,仅使用单目RGB相机也能实现复杂的视觉运动行为。
八、关键术语表
| 术语 | 英文 | 解释 |
|---|---|---|
| 跨模态监督 | Cross-Modal Supervision (CMS) | 使用时间平移的本体感知作为监督信号训练视觉模块 |
| 前瞻 | Look-ahead | 机器人对前方地形几何的预测能力 |
| 视觉前瞻 | Visual Lookahead | 通过视觉传感器预测前方地形高度 |
| 盲策略 | Blind Policy | 不使用视觉,仅依赖本体感知的行走策略 |
| 前瞻策略 | Lookahead Policy | 使用视觉前瞻地形信息的行走策略 |
| 时间平移本体感知 | Time-Shifted Proprioception | 当前时间步看到的前方地形,在未来的本体感知中可被精确估计 |
| 终身学习 | Lifelong Learning | 在部署过程中持续利用新数据改进模型 |
| 棱镜适应测试 | Prism Adaptation Test | 测试系统适应视觉场偏移能力的经典实验 |
| 视觉可塑性 | Visual Plasticity | 视觉系统适应视觉输入变化的能力 |
| 自监督学习 | Self-Supervised Learning | 使用机载传感器生成监督信号,无需人工标注 |
| 分形地形 | Fractal Terrain | 使用分形算法生成的不规则模拟地形 |
| ShuffleNet-V2 | --- | 轻量级CNN特征提取网络 |
| 本体感知 | Proprioception | 机器人通过内部传感器感知自身关节状态 |
| 自我中心视觉 | Egocentric Vision | 从机器人第一人称视角采集的视觉数据 |
| RMA | Rapid Motor Adaptation | 快速电机自适应算法(本文的前置工作) |