Learning Visual Locomotion with Cross-Modal Supervision 文献解读

论文标题 : Learning Visual Locomotion with Cross-Modal Supervision
作者 : Antonio Loquercio*, Ashish Kumar*, Jitendra Malik (UC Berkeley，*表示同等贡献)
发表会议 : ICRA 2023 (IEEE International Conference on Robotics and Automation)
项目主页 : https://antonilo.github.io/vision_locomotion/
代码 : https://github.com/antonilo/vision_locomotion
Arxiv: https://arxiv.org/abs/2211.03785

文章摘要：本文解读了ICRA 2023收录的《Learning Visual Locomotion with Cross-Modal Supervision》论文。该研究提出**跨模态监督（CMS）**算法，利用时间平移的本体感知作为自监督信号，在真实世界中训练四足机器人的单目RGB视觉行走策略。核心思路是：在仿真器中训练可"作弊"获取地形高度的盲走策略，再通过CMS在真实世界中训练视觉模块预测前方地形高度，从而避免RGB仿真的sim-to-real鸿沟。实验表明，仅需不到30分钟真实世界数据，即可将盲策略的50%成功率提升至100%，行走速度提高26%。CMS还天然支持终身持续学习，并通过棱镜适应实验验证了系统的视觉可塑性。

一、研究背景与核心问题

1.1 研究动机

Gibson 曾提出著名论断："我们为了移动而看，我们为了看而移动"。对于陆地动物而言，可以解读为"我们为了行走而看，我们为了行走而走"。从字面意义上讲，盲人确实可以行走，盲机器人也可以行走（如RMA），但Gibson并非全然错误------虽然盲人可以行走，但在复杂地形（如楼梯）上会感到极其困难且无法快速行走。他们必须先用拐杖小心探测前方才能安全行走。

人类视觉研究表明，视觉为我们提供了**"前瞻"（look-ahead）**能力------当我们能看到前方的地面时，我们的落脚更平滑，行走更高效。这种前瞻与行走策略紧密耦合。本文将这一研究思路拓展到机器人领域：为四足机器人开发行走策略，利用视觉系统进行前瞻------预测机器人前方地形的高度。

1.2 关键科学问题与技术挑战

核心问题 ：如何训练仅使用单目RGB相机和**本体感知（proprioception）**的视觉行走策略？

具体挑战包括：

RGB渲染的Sim-to-Real鸿沟：
- 仿真器中渲染的RGB图像与真实世界图像差异巨大；
- 渲染逼真度越高，计算成本越大，在高样本复杂度的RL训练内循环中使用RGB渲染是不可行的；
- 这与深度输入形成鲜明对比：深度的sim-to-real差距小，多个系统已成功从仿真迁移到真实世界。
视觉训练的"鸡生蛋、蛋生鸡"悖论：
- 要开发能为行走提供前瞻的视觉系统，首先需要能够行走以收集数据来监督视觉系统；
- 幸运的是，不存在无限递归问题：机器人可以从盲走策略（即使笨拙）开始引导（bootstrap）。
RGB输入的维度爆炸与计算约束：
- 图像的高维度使端到端视觉运动训练比纯本体感知训练困难得多；
- 在有限机载计算资源上实现实时视觉推理。
真实世界终身学习：
- 如何在机器人部署过程中，利用自身经验持续改进视觉地形预测能力，进而提升整体行走性能。

二、研究方法与技术路线

2.1 总体框架

本文的核心洞察是：视觉部分可以在真实世界中从机载传感器训练，而动作策略仍可在仿真器中训练。

具体思路：

在仿真器中训练一个盲走策略 （πblind\pi_{blind}πblind），该策略可以"作弊"------获知前方若干"前瞻点"的地形高度；
在真实世界中，单独训练一个视觉系统，从RGB图像预测前瞻点的地形高度；
视觉系统通过跨模态监督（Cross-Modal Supervision, CMS） 进行训练------利用时间平移的本体感知作为监督信号。

2.2 仿真训练阶段

2.2.1 策略结构

在仿真中训练两个行走策略：π\piπ（前瞻策略）和 πblind\pi_{blind}πblind（盲策略）。

状态输入 ：
xt=[qt,qt′,at−1,zt,γt]⊤x_t = [q_t, q't, a{t-1}, z_t, \gamma_t]^{\top}xt=[qt,qt′,at−1,zt,γt]⊤

qt∈R12q_t \in \mathbb{R}^{12}qt∈R12：当前关节位置
qt′∈R12q'_t \in \mathbb{R}^{12}qt′∈R12：关节速度
at−1∈R12a_{t-1} \in \mathbb{R}^{12}at−1∈R12：前一时刻动作
zt∈R8z_t \in \mathbb{R}^8zt∈R8：外在向量（环境参数潜在编码）
γt\gamma_tγt：机器人脚下地形几何的潜在表示

关键变量定义：

zt=μ(et)z_t = \mu(e_t)zt=μ(et)：环境因子编码器将物理参数编码为8维潜在向量
- ete_tet 包含：负载、电机强度、脚接触二值指示、线速度、摩擦系数等
γt=δ(ht)\gamma_t = \delta(h_t)γt=δ(ht)：地形几何编码器将地形高度编码为潜在表示
γt+Δt=δ(ht+Δt)\gamma_{t+\Delta t} = \delta(h_{t+\Delta t})γt+Δt=δ(ht+Δt)：前瞻地形编码------机器人前方15cm处的地形估计

策略输出：

前瞻策略（π\piπ）：
at=π(xt,zt,γt,γt+Δt)a_t = \pi(x_t, z_t, \gamma_t, \gamma_{t+\Delta t})at=π(xt,zt,γt,γt+Δt)

盲策略（πblind\pi_{blind}πblind）：
at=πblind(xt,zt,γt)a_t = \pi_{blind}(x_t, z_t, \gamma_t)at=πblind(xt,zt,γt)

网络架构：

μ\muμ、π\piπ、πblind\pi_{blind}πblind均为两层MLP，隐藏维度分别为[256,128][256, 128][256,128]和[128,128][128, 128][128,128]；
δ\deltaδ为[64,16][64, 16][64,16]的MLP，γt\gamma_tγt和γt+Δt\gamma_{t+\Delta t}γt+Δt共享同一δ\deltaδ网络。

2.2.2 训练流程

先训练盲策略 ：联合训练 πblind\pi_{blind}πblind 和相关编码器（μ\muμ、δ\deltaδ），使用无模型RL端到端训练；
冻结编码器，再训练前瞻策略 ：冻结 δ\deltaδ 和 μ\muμ，仅训练 π\piπ。

2.2.3 环境设计

分形地形：与RMA类似，在分形地形上训练；
参数化楼梯 ：灵感来自建筑学经典参考------舒适的楼梯高度应为[10,19][10, 19][10,19]cm，长度不小于30cm；高度近似为2×rise+going≈1002 \times \text{rise} + \text{going} \approx 1002×rise+going≈100cm。据此，作者采样楼梯高度在[10,21][10, 21][10,21]cm范围，台阶长度从{30,40,50,60}\{30, 40, 50, 60\}{30,40,50,60}cm中选取。
斜坡：参数化斜坡。

2.2.4 奖励函数设计

奖励项	公式	权重	物理意义
前进速度	min⁡(vxd,vx)\min(v_x^d, v_x)min(vxd,vx)	65	鼓励达到目标前进速度 vxd∈[0,0.5]v_x^d \in [0, 0.5]vxd∈[0,0.5] m/s
横向速度	∣vy∣\|v_y\|∣vy∣	1	抑制横向漂移
角速度	−∣wzd−wz∣+wxd-\|w_z^d - w_z\| + w_x^d−∣wzd−wz∣+wxd	40	跟踪目标角速度 wzd∈[−0.4,0.4]w_z^d \in [-0.4, 0.4]wzd∈[−0.4,0.4] rad/s
做功	−∣τ⊤⋅(αt−αt−1)∣-\|\tau^{\top} \cdot (\alpha_t - \alpha_{t-1})\|−∣τ⊤⋅(αt−αt−1)∣	0.05	最小化关节做功
足部滑动	−∣diag(g)t⋅vft∣-\|\text{diag}(g)_t \cdot v_f^t\|−∣diag(g)t⋅vft∣	0.2	减少支撑足滑动

此外，还包含：

生存奖励（权重9）：在楼梯上时加倍，鼓励持续行走；
环境参数：从RMA报告中随机采样负载、摩擦、电机强度等。

2.2.5 训练课程

阶段一：平坦地形上训练5亿步；
阶段二：逐渐增加楼梯难度------从10cm高度起步，每1亿步增加台阶高度直至最大值；
防遗忘：楼梯训练中以10%概率采样平坦地形；
动作正则化：添加回归损失匹配仅在平坦地形上训练的策略的动作。

2.2.6 Sim-to-Real 迁移

为将盲策略 πblind\pi_{blind}πblind 迁移到真实世界，训练一个网络 g0g_0g0 从本体感知和动作历史中预测 ztz_tzt 和 γt\gamma_tγt，采用与RMA相同的结构和训练过程。

2.3 跨模态监督（CMS）------核心算法

2.3.1 核心思想

CMS使用时间平移的本体感知来监督视觉：

我看前方的一个点A，其高度当前未知。但当我的脚到达A时，其高度可以从我的身体关节角度推断出来。

这构成了自监督学习范式------监督信号来自机载传感器，不需要人工标注。

2.3.2 数据收集与训练

数据集构建 ：
D={(It,xt),γt}\mathcal{D} = \{(I_t, x_t), \gamma_t\}D={(It,xt),γt}

ItI_tIt：机载RGB相机的自我中心视觉输入
xtx_txt：当前本体感知状态
γt\gamma_tγt：通过本体感知估计的当前地形几何（作为监督目标）

CNN视觉估计器架构：

输入：最近三帧灰度图像（15Hz，拼接为输入张量）
特征提取：ShuffleNet-V2（保留全局平均池化前的最后一层以维持空间信息）
维度压缩：1D卷积将特征投影到2维通道空间
多模态融合：提供50步IMU测量历史（roll、pitch）和期望速度指令 → 经预测器输出128维嵌入 → 与ShuffleNet特征拼接
最终预测 ：MLP（[128,64][128, 64][128,64]）预测 γ\gammaγ

训练目标 ：

在收集的数据集 D\mathcal{D}D 上通过监督学习训练视觉网络 gig_igi，使其能从视觉输入估计当前外在向量 ztz_tzt 和未来地形几何 γt+Δt\gamma_{t+\Delta t}γt+Δt：
z^t,γ^t+Δt=gi(It,xt)\hat{z}t, \hat{\gamma}{t+\Delta t} = g_i(I_t, x_t)z^t,γ^t+Δt=gi(It,xt)

最小化 CMS 误差（ztz_tzt 和 γt+Δt\gamma_{t+\Delta t}γt+Δt 的预测误差）。

2.4 终身持续学习（Lifelong Learning via CMS）

CMS自然支持终身学习：

机器人部署过程中持续收集数据集 D\mathcal{D}D；
实时使用本体感知的 γ\gammaγ 估计作为监督信号；
在执行过程中持续训练视觉前瞻地形预测器；
正向循环：更好的视觉预测 → 更好的行走 → 更高质量的数据 → 更好的视觉预测。

2.5 部署架构

模块	运行频率	功能
自适应模块（g）	~10 Hz	从本体感知历史预测 ztz_tzt、γt\gamma_tγt
视觉估计器（gig_igi）	15 Hz	从RGB图像预测 z^t\hat{z}tz^t、γ^t+Δt\hat{\gamma}{t+\Delta t}γ^t+Δt
电机策略（π\piπ）	100 Hz	接收状态和预测，生成目标关节角度

注：视觉估计器与自适应模块独立运行，基础策略融合两者的输出。

三、实验设计与结果分析

3.1 实验平台

配置项	规格
硬件平台	Unitree A1 四足机器人
视觉传感器	单目RGB相机（15Hz，灰度化处理）
本体感知	电机编码器 + IMU + 足部接触传感器
仿真器	RaiSim（刚性体 + 接触动力学）
控制方式	位置控制 + PD控制器（100Hz）
单次Episode	最长1200步，早终止条件：roll/pitch超限或底座过低
仿真时间步	0.025s

3.2 盲策略 vs 视觉策略行为分析

图3关键分析：

特性	盲策略（Blind）	视觉策略（Vision）
γ\gammaγ 估计方式	实时本体感知	视觉前瞻预测
楼梯接近行为	笨拙的"探索式"------需要触碰楼梯两次才能正确估计高度	预知地形几何，提前调整步态
初始爬升速度	较慢	约提升2倍
步态特征	踉跄、试探	平滑、敏捷
成功率	约50%	可达100%

3.3 终身学习实验------四楼梯持续改进

对4个不同规格的楼梯（高度12.7-19cm，台阶长度29-43cm），跨4天持续收集数据并评估：

阶段	数据量	成功率	距离指标	完成时间
盲策略（Day 0）	0	40-60%	0.51-0.82	7-28s
Day I	~7 min	40-60%	0.71-0.89	7-27s
Day II	~14 min	60-80%	0.75-0.86	6-26s
Day III	~21 min	100%	1.0	6-23s

关键发现：

仅需不到30分钟的真实世界数据（跨4天），所有楼梯成功率均达到100%；
视觉策略平均行走速度比盲策略提高26%；
成功率提高50个百分点。

3.4 数据收集效率分析

对比项	盲策略收集数据	视觉策略收集数据
单次实验平均数据量	基线	+21%
数据质量	偶尔踉跄/触碰导致损坏数据	步态精确，数据质量高
训练效果	同等数据量下性能更差	同等数据量下性能更优

结论：使用最新视觉策略（而非初始盲策略）收集数据能实现更快的收敛------因为视觉策略可以走更长时间不掉落，显著提高真实世界数据收集效率。

3.5 泛化实验

地形	成功率	说明
未见过的楼梯	80%	视觉模块从未训练过
路缘石（curbs）	100%	最高20cm
陡坡（35°）	60%	滑溜斜坡

注：跨校区泛化------在Berkeley校区训练后在Stanford校区验证。

3.6 视觉前置量消融实验（仿真）

前瞻距离	成功率(↑)	TTF(↑)	距离(m)(↑)	平滑性(↓)
0cm（RMA等同）	58%	0.83	4.11	44.30
5cm	64%	0.88	4.67	34.19
15cm	75%	0.95	4.73	30.77
25cm	74%	0.96	4.96	37.19
35cm	74%	0.94	4.66	31.43

结论：前瞻距离从0cm增加到15cm时，成功率从58%急剧跃升至75%（+17个百分点），此后趋于饱和，证明15cm是性价比最优的前瞻距离。

3.7 棱镜适应实验（Prism Adaptation Test）

这是视觉运动领域广为人知的"棱镜测试"------测试系统对视觉场人工位移的适应能力：

阶段	描述	机器人表现
Pre-test（预测试）	相机处于标称位置	完美爬楼梯
Exposure（暴露）	相机绕偏航轴旋转约30°	眼眶楼梯、水平漂移
Adaptation（适应期1）	微调最后3层	经过3次试验（~80秒数据）恢复预期能力和直行
Post-test I（返回测试1）	相机回到原位	踉跄
Post-test II（返回测试2）	再次微调	经过2次试验重新适应原始视觉场

适应机制 ：每次试验后，最小化CMS误差，仅微调γ\gammaγ预测器的最后3层，训练10个epoch。

结论：CMS使策略具备显著的视觉可塑性------在极少量数据（~1分钟）下即可适应视觉场的大幅偏移。

四、主要创新点与学术贡献

4.1 核心创新

跨模态监督（CMS）------全新的视觉训练范式
- 首次使用时间平移的本体感知作为自监督信号训练视觉模块；
- 完全在真实世界中训练视觉部分，避免了RGB仿真渲染的sim-to-real鸿沟；
- 监督信号来自机载传感器，无需人工标注，实现完全自主的真机学习。
"盲→视觉"的优雅引导策略
- 从仿真训练的盲策略起步（可与RMA等现有框架兼容）；
- 盲策略收集的数据用于训练视觉模块；
- 视觉模块训练好后切换到前瞻策略；
- 解决"鸡生蛋"悖论的实用方案。
终身持续学习（Lifelong Learning）能力
- CMS使机器人能够在部署过程中不断自我改进；
- 正向反馈循环：更好的视觉 → 更好的行走 → 更高质量数据 → 更好的视觉；
- 仅需每天7分钟数据即可实现显著性能提升。
单目RGB的纯视觉行走
- 放弃深度传感器（LiDAR/立体相机），仅使用单目RGB相机；
- 在低成本机器人上实现复杂的视觉行走；
- 展示了RGB-only设计在足式机器人领域的可行性与优势。

4.2 技术贡献

多模态特征融合的视觉估计器设计
- ShuffleNet-V2提取空间特征（保留空间信息）；
- 1D卷积 + MLP融合视觉特征与IMU历史/速度指令；
- 在有限计算资源下实现实时推理。
前瞻地形编码机制
- γt\gamma_tγt（脚下地形）和 γt+Δt\gamma_{t+\Delta t}γt+Δt（前方15cm地形）共享编码器 δ\deltaδ；
- 仿真中真值可用预处理训练，真实世界中通过CMS估计；
- 消融实验系统验证了15cm为最优前瞻距离。
参数化楼梯生成与课程学习
- 基于建筑学标准的物理合理楼梯分布；
- 两级课程：平面→渐进式楼梯难度递增；
- 防遗忘机制：楼梯训练中混合平坦地形采样。
Sim-to-Real迁移的渐进策略
- 盲策略 → 自适应模块 → 视觉模块的三层递进；
- 每个阶段独立训练和验证，便于问题定位。

4.3 实验贡献

首个使用CMS在真实世界中系统训练视觉行走策略的工作；
在最多的真实世界楼梯和地形上系统评估视觉行走性能；
验证视觉策略的跨校区泛化（Berkeley → Stanford）；
首次在机器人平台上实现棱镜适应实验，展示视觉可塑性；
系统消融实验验证视觉前瞻距离的最优值。

五、与相关工作的对比

方法	传感器要求	计算成本	真实世界性能	持续学习能力
CMS（本文）	单目RGB + IMU	低（可在A1上实时运行）	高（各种复杂地形）	✅ 天然支持
RMA [Kumar 2021]	仅本体感知	低	中等（盲走）	❌
Miki et al. 2022	3 LiDAR + 8立体模块	极高	高	❌
Miki et al. 2022	LiDAR/立体相机	高	中-高	❌
传统模块化方法	深度传感器	中-高	受限于手工特征	❌

六、局限性与未来方向

6.1 局限性

仅改善视觉模块，不改善电机模块：
- CMS框架仅更新视觉预测器，电机策略在真实世界中保持固定；
- 电机策略的局限性（如RMA的盲策略）在极端地形上可能成为瓶颈。
地形覆盖的局限性：
- 未覆盖所有真实世界地形类型（如碎石、冰面等）；
- 35°陡坡仅60%成功率，仍有提升空间。
单目RGB的固有局限：
- 无深度信息，对光照变化敏感；
- 无法直接感知透明/镜面表面。
依赖盲策略的初始质量：
- 如果盲策略在某种地形上完全无法行走，无法收集数据训练视觉模块。

6.2 未来方向

CMS + 电机策略联合在线改进：
- 在真实世界中同时改善视觉系统和电机策略；
- 实现端到端的终身学习。
融合更多模态：
- 触觉反馈、力传感器等多模态信息；
- 更好的地形分类与自适应。
扩展到其他机器人平台：
- 双足机器人视觉行走；
- 人形机器人视觉运动。
更复杂的视觉任务：
- 视觉导航 + 地形适应的联合学习；
- 长期规划与短期自适应的融合。

七、总结

本文提出了跨模态监督（Cross-Modal Supervision, CMS）算法，解决了在真实世界中训练单目RGB视觉行走策略的核心挑战。CMS利用时间平移的本体感知作为自监督信号来训练视觉模块，天然支持终身持续学习。

核心贡献可归纳为：

方法论创新：CMS提供了一种全新的范式------在真实世界中从机载传感器以自监督方式训练视觉部分，避免RGB仿真的sim-to-real鸿沟；
系统设计：优雅的"盲策略→视觉模块"引导方案，实现了从仿真到真实世界的平滑过渡；
实验验证：在不到30分钟真实世界数据内，将盲策略从50%成功率提升至100%，视觉策略平均速度提高26%；
深度洞察：通过棱镜适应实验展示了视觉可塑性，通过前瞻消融实验验证了15cm最优前瞻距离。

CMS为足式机器人的视觉行走提供了一条实用且优雅的路径，证明了即使在有限计算资源的低成本机器人上，仅使用单目RGB相机也能实现复杂的视觉运动行为。

八、关键术语表

术语	英文	解释
跨模态监督	Cross-Modal Supervision (CMS)	使用时间平移的本体感知作为监督信号训练视觉模块
前瞻	Look-ahead	机器人对前方地形几何的预测能力
视觉前瞻	Visual Lookahead	通过视觉传感器预测前方地形高度
盲策略	Blind Policy	不使用视觉，仅依赖本体感知的行走策略
前瞻策略	Lookahead Policy	使用视觉前瞻地形信息的行走策略
时间平移本体感知	Time-Shifted Proprioception	当前时间步看到的前方地形，在未来的本体感知中可被精确估计
终身学习	Lifelong Learning	在部署过程中持续利用新数据改进模型
棱镜适应测试	Prism Adaptation Test	测试系统适应视觉场偏移能力的经典实验
视觉可塑性	Visual Plasticity	视觉系统适应视觉输入变化的能力
自监督学习	Self-Supervised Learning	使用机载传感器生成监督信号，无需人工标注
分形地形	Fractal Terrain	使用分形算法生成的不规则模拟地形
ShuffleNet-V2	---	轻量级CNN特征提取网络
本体感知	Proprioception	机器人通过内部传感器感知自身关节状态
自我中心视觉	Egocentric Vision	从机器人第一人称视角采集的视觉数据
RMA	Rapid Motor Adaptation	快速电机自适应算法（本文的前置工作）