视觉引导的时序奖励塑形:多视角视频驱动的强化学习状态对齐框架
1. 引言
1.1 视觉语言模型驱动的奖励设计新范式
强化学习在复杂机器人控制任务中的成败,往往取决于奖励函数设计的质量。稀疏的任务奖励(如仅在人形机器人成功站立时给予正向反馈)导致探索空间过于辽阔,智能体难以在巨大的状态空间中发现有效的行为模式。为破解这一困境,视觉语言模型(Vision-Language Model, VLM)驱动的奖励设计应运而生。其核心思想在于:利用预训练VLM强大的跨模态理解能力,将自然语言描述的任务目标(如"奔跑"、"坐下")转化为可量化的视觉反馈信号,从而为强化学习提供稠密的中间引导。
然而,将VLM嵌入强化学习闭环并非简单的分数叠加。现有方法普遍采用单帧图像-文本相似度作为奖励增量,这种设计在理论上隐含着对最优策略的系统性偏移风险,在工程上则难以应对动态时序任务的复杂性。本文系统阐述一种多视角视频驱动的状态依赖奖励塑形框架,通过时序建模与自动衰减机制,实现VLM引导与任务目标的和谐统一。
1.2 单帧图像奖励的三大结构性缺陷
当前主流的VLM奖励方法(如VLM-RM、RoboCLIP)存在三个相互交织的结构性缺陷:
静态姿态偏差。图像-文本相似度天然偏好那些与文本描述"最像"的静态姿态。以"奔跑"任务为例,单帧优化会驱使智能体维持一个看似奔跑的固定 pose,而非真正执行腿部交替推进的动态步态。这是因为单张快照无法编码运动的时序节律,VLM倾向于奖励"看起来像"而非"做起来是"的状态。
视角遮挡与信息缺失。单一相机视角必然存在遮挡与盲区。在人形机器人操作任务中,侧视角可能清晰捕捉手臂运动,却完全遮蔽下肢的平衡调整;俯视角可见全局位置,却丢失肢体关节的精细姿态。视角的片面性导致VLM反馈基于不完整观测,引入系统性噪声。
奖励冲突与最优策略偏移。将VLM相似度分数线性叠加到任务奖励上,缺乏显式的塑形(Shaping)理论保障。根据势函数奖励塑形理论,不当的奖励修改可能改变MDP的最优策略,使得智能体为追求高分VLM反馈而偏离任务本质目标。例如,为最大化"坐下"的图像相似度,智能体可能学会以违背物理稳定性的方式强行折叠躯干,而非稳健落座。
1.3 多视角视频塑形的核心思想
为克服上述缺陷,多视角视频奖励塑形(Multi-View Video Reward Shaping, MVRS)框架引入三项关键设计:
时序视频编码 。以短视频片段(通常 646464 帧)替代单张图像作为VLM输入,捕捉行为的动态演化过程。视频-文本相似度能够区分"奔跑中的一帧"与"假装奔跑的静止 pose",从根本上消除静态姿态偏差。
多视角信息融合。在并行仿真环境中部署多个相机,从环绕视角采集智能体行为。多视角观测通过注意力机制(Attention Mechanism)聚合,形成对行为的全景式评估,避免单一视角的信息盲区。
状态依赖自动衰减。设计一种可学习的状态相关性函数,将VLM反馈转化为与任务奖励正交的塑形项。该塑形项在训练初期提供强引导,随着智能体行为逐渐对齐目标模式,其影响自动衰减至零,最终完全由任务奖励主导,确保最优策略不被偏移。
单帧缺陷
静态偏差
视角遮挡
策略偏移
视频塑形
时序编码
多视角融合
自动衰减
消除偏差
2. 马尔可夫决策过程与奖励塑形理论基础
2.1 问题形式化
强化学习任务由马尔可夫决策过程(Markov Decision Process, MDP)定义,记为六元组 (S,A,P,r,γ,d)(\mathcal{S}, \mathcal{A}, P, r, \gamma, d)(S,A,P,r,γ,d)。其中 S\mathcal{S}S 为状态空间,A\mathcal{A}A 为动作空间,P(st+1∣st,at)P(s_{t+1} \mid s_t, a_t)P(st+1∣st,at) 为状态转移概率,r(s,a)r(s, a)r(s,a) 为即时任务奖励函数,γ∈(0,1)\gamma \in (0,1)γ∈(0,1) 为折扣因子,d(s0)d(s_0)d(s0) 为初始状态分布。策略 π(a∣s)\pi(a \mid s)π(a∣s) 的优化目标是最大化期望累积回报:
J(π)=Eτ∼π[∑t=0Tγtr(st,at)]J(\pi) = \mathbb{E}{\tau \sim \pi} \left[ \sum{t=0}^{T} \gamma^t r(s_t, a_t) \right]J(π)=Eτ∼π[t=0∑Tγtr(st,at)]
其中 τ=(s0,a0,s1,a1,...,sT)\tau = (s_0, a_0, s_1, a_1, \dots, s_T)τ=(s0,a0,s1,a1,...,sT) 表示一条完整轨迹,TTT 为任务时域。在机器人控制场景中,sts_tst 通常包含关节角度、角速度、质心位置等本体感知信息,也可能包含相机像素观测。
2.2 势函数奖励塑形理论
奖励塑形(Reward Shaping)是在原始任务奖励 r(s,a)r(s,a)r(s,a) 之上叠加辅助项 F(s,a,s′)F(s, a, s')F(s,a,s′) 以加速学习的技术。然而, arbitrary 的塑形可能改变MDP的最优策略。Ng等人提出的势函数理论给出了安全塑形的充要条件:若塑形项可表示为状态势函数的差分形式
F(s,a,s′)=γΦ(s′)−Φ(s)F(s, a, s') = \gamma \Phi(s') - \Phi(s)F(s,a,s′)=γΦ(s′)−Φ(s)
则塑形后的MDP与原MDP具有相同的最优策略。其中 Φ:S→R\Phi: \mathcal{S} \to \mathbb{R}Φ:S→R 称为势函数(Potential Function),仅依赖于状态而不依赖于动作或转移。
物理意义极为直观:势函数相当于在状态空间中定义了一个"地形高度",塑形项 γΦ(s′)−Φ(s)\gamma \Phi(s') - \Phi(s)γΦ(s′)−Φ(s) 奖励向高势状态的转移。由于最优策略由状态值函数的相对排序决定,而势函数在所有策略下以相同方式偏移值函数,因此不改变策略的优劣排序。这一理论为MVRS的设计提供了根本约束------VLM反馈必须被转化为仅与状态相关的势函数形式,而非直接叠加到奖励上。
2.3 VLM作为奖励源的理论边界
将VLM相似度直接作为奖励增量 rVLM(s)r^{\text{VLM}}(s)rVLM(s) 使用时,若缺乏势函数结构,则存在改变最优策略的理论风险。此外,VLM反馈还面临以下边界约束:
分布偏移。预训练VLM(如ViCLIP)的分布与机器人仿真环境的视觉分布存在域间隙(Domain Gap)。仿真渲染的纹理、光照与VLM训练数据(通常为真实世界视频)差异显著,导致相似度分数的绝对值缺乏校准。
尺度不一致。图像-文本相似度与任务奖励的量纲和尺度通常不匹配。直接相加相当于强行耦合两个异构信号,可能使梯度更新被某一信号主导。
动态任务失效。对于需要周期性状态转移的任务(如奔跑、行走),单帧相似度无法区分"正确时序中的某一帧"与"错误时序中的相似帧",导致奖励信号与真实进度脱节。
MVRS通过引入可学习的状态相关性函数与自动衰减机制,在势函数框架的约束下重新组织VLM反馈,从而在上述边界内安全地利用VLM的先验知识。
原始MDP
势函数约束
安全塑形
VLM反馈
分布偏移
尺度不一致
动态失效
状态相关性
策略不变
3. 多视角视频奖励塑形框架
3.1 总体架构设计
MVRS框架由四个核心模块构成:多视角视频采集器 、VLM编码器 、状态相关性模型 与奖励塑形合成器 。整个系统以在线方式运行:智能体在仿真环境中执行策略,每隔 TrenderT_{\text{render}}Trender 步将轨迹渲染为短视频;视频经多视角相机阵列捕获后送入冻结的预训练VLM,提取视频级嵌入与视频-文本相似度;这些信号被存入动态数据集并用于训练状态相关性模型;最终,模型输出的状态相关性与参考集比对,生成自动衰减的塑形奖励,与任务奖励合成后驱动策略更新。
智能体
轨迹执行
多视角渲染
VLM编码
数据集
相关性模型
参考集比对
塑形奖励
奖励合成
3.2 多视角视频采集与VLM编码
在并行仿真后端(如Isaac Gym)中,为每个环境实例配置 VVV 个虚拟相机,环绕分布于智能体周围,覆盖前视、侧视、后视等互补视角。每隔 TrenderT_{\text{render}}Trender 个环境步(通常取 999),从当前轨迹中抽取长度为 TvideoT_{\text{video}}Tvideo(通常 646464 帧)的连续片段,由各视角相机分别渲染为视频序列。
视频编码采用冻结的ViCLIP模型。ViCLIP将短视频片段 vvv 与任务文本描述 ttt 映射至共享嵌入空间,输出视频-文本相似度分数:
sVLM(v,t)=⟨Evid(v),Etext(t)⟩s^{\text{VLM}}(v, t) = \langle E_{\text{vid}}(v), E_{\text{text}}(t) \ranglesVLM(v,t)=⟨Evid(v),Etext(t)⟩
其中 EvidE_{\text{vid}}Evid 与 EtextE_{\text{text}}Etext 分别为视频与文本编码器,⟨⋅,⋅⟩\langle \cdot, \cdot \rangle⟨⋅,⋅⟩ 表示内积。该分数量化了视频内容与语言描述的对齐程度,但如前所述,其绝对值受域间隙与静态偏差影响,不宜直接作为奖励。
多视角信息的聚合采用时序平均策略。对于同一轨迹片段的 VVV 个视角视频,分别计算相似度后取算术平均:
sˉVLM=1V∑i=1VsVLM(vi,t)\bar{s}^{\text{VLM}} = \frac{1}{V} \sum_{i=1}^{V} s^{\text{VLM}}(v_i, t)sˉVLM=V1i=1∑VsVLM(vi,t)
这种简单平均在实验中已展现出优于单视角的稳健性。理论上,注意力机制(Attention Mechanism)可用于自适应加权各视角贡献,但在高动态运动任务中,时序平均的稳定性更胜一筹,避免了注意力权重在训练初期的剧烈波动。
3.3 状态相关性学习模型
MVRS的核心创新在于训练一个轻量级的状态相关性模型 fMVRS:S→[−1,1]f^{\text{MVRS}}: \mathcal{S} \to [-1, 1]fMVRS:S→[−1,1],将高维状态映射为与任务目标的相关性标量。该模型不直接依赖VLM的原始相似度,而是学习从本体状态预测VLM反馈的潜在结构,从而实现对任意状态的实时评估,无需每步都进行昂贵的视频渲染与VLM推理。
模型架构采用两层全连接网络作为主干(隐藏层维度 512512512,ReLU激活),后接一个可学习的预测向量(Predictor Vector)。给定状态 s∈Rds \in \mathbb{R}^ds∈Rd,前向传播为:
h1=ReLU(W1s+b1),h2=W2h1+b2h_1 = \text{ReLU}(W_1 s + b_1), \quad h_2 = W_2 h_1 + b_2h1=ReLU(W1s+b1),h2=W2h1+b2
嵌入向量经 L2L_2L2 归一化:
e=h2∥h2∥2e = \frac{h_2}{\|h_2\|_2}e=∥h2∥2h2
预测向量 p∈R512p \in \mathbb{R}^{512}p∈R512 同样经 L2L_2L2 归一化得到 p~=p/∥p∥2\tilde{p} = p / \|p\|_2p~=p/∥p∥2。状态相关性通过余弦相似度计算:
fMVRS(s)=⟨e,p~⟩=∑i=1512ei⋅p~if^{\text{MVRS}}(s) = \langle e, \tilde{p} \rangle = \sum_{i=1}^{512} e_i \cdot \tilde{p}_ifMVRS(s)=⟨e,p~⟩=i=1∑512ei⋅p~i
输出被约束在 [−1,1][-1, 1][−1,1] 区间内,天然适合作为奖励塑形项的缩放因子。该设计的物理意义在于:主干网络学习将状态压缩到与VLM视频嵌入对齐的语义空间,而预测向量则在该空间中定义了一个"目标方向"------相关性高的状态即为沿该方向投影较大的状态。
模型训练采用回归损失,以VLM提供的视频-文本相似度作为伪标签:
L(θ)=E(s,sˉVLM)∼D[(fθMVRS(s)−sˉVLM)2]\mathcal{L}(\theta) = \mathbb{E}{(s, \bar{s}^{\text{VLM}}) \sim \mathcal{D}} \left[ \left( f^{\text{MVRS}}{\theta}(s) - \bar{s}^{\text{VLM}} \right)^2 \right]L(θ)=E(s,sˉVLM)∼D[(fθMVRS(s)−sˉVLM)2]
数据集 D\mathcal{D}D 动态维护,容量通常为 2×1042 \times 10^42×104 条状态-相似度对,每 TupdateT_{\text{update}}Tupdate 步(通常 10510^5105 步)用最新采集的数据重新训练模型,并采用早停策略防止过拟合。
状态输入
FC层512
ReLU激活
FC层512
L2归一化
预测向量
L2归一化
余弦相似
相关性
3.4 状态依赖的自动衰减塑形
MVRS的奖励塑形项并非简单的状态相关性输出,而是通过与参考集的比对实现了状态依赖的自动衰减。参考集 Dref\mathcal{D}^{\text{ref}}Dref 维护着训练过程中观察到的 top-kkk(通常 k=10k=10k=10)条最高相似度的状态序列,代表着当前已发现的"最佳行为范例"。
对于状态 sss,塑形奖励定义为当前状态相关性与参考集期望相关性的偏差:
rVLM(s)=fMVRS(s)−Es′∼Dref[fMVRS(s′)]r^{\text{VLM}}(s) = f^{\text{MVRS}}(s) - \mathbb{E}_{s' \sim \mathcal{D}^{\text{ref}}} \left[ f^{\text{MVRS}}(s') \right]rVLM(s)=fMVRS(s)−Es′∼Dref[fMVRS(s′)]
当智能体行为尚未达到参考集水平时,fMVRS(s)f^{\text{MVRS}}(s)fMVRS(s) 显著低于参考集均值,rVLMr^{\text{VLM}}rVLM 为负值,驱动智能体向高相关性区域探索。随着行为改善,状态分布逐渐与参考集对齐,期望偏差趋近于零,塑形项自然消失。
完整的塑形奖励函数为:
rMVRS(s,a)=rtask(s,a)+w⋅rVLM(s)r^{\text{MVRS}}(s, a) = r^{\text{task}}(s, a) + w \cdot r^{\text{VLM}}(s)rMVRS(s,a)=rtask(s,a)+w⋅rVLM(s)
其中 www 为塑形权重(通过网格搜索从 {0.01,0.1,0.5}\{0.01, 0.1, 0.5\}{0.01,0.1,0.5} 中选取)。该公式满足势函数理论的精神:rVLMr^{\text{VLM}}rVLM 可视为势函数 Φ(s)=w⋅fMVRS(s)\Phi(s) = w \cdot f^{\text{MVRS}}(s)Φ(s)=w⋅fMVRS(s) 的负梯度近似,在行为收敛时自动归零,不干扰任务奖励主导的最优策略。
物理意义解读:rVLMr^{\text{VLM}}rVLM 相当于一个"进度条",衡量当前状态距离已发现的最佳范例还有多远。初期进度条很长,VLM引导强烈;后期进度条归零,系统信任任务奖励的精确反馈。这种"扶上马、送一程"的设计,完美解决了VLM反馈与任务奖励之间的潜在冲突。
4. 算法实现与训练流程
4.1 参考集维护与在线更新
参考集 Dref\mathcal{D}^{\text{ref}}Dref 是MVRS实现自动衰减的关键数据结构。其维护策略遵循"精英保留"原则:每当新轨迹的VLM相似度被评估后,若其分数高于参考集中最低分样本,则替换之。这确保了参考集始终包含训练历史中质量最高的 kkk 条状态序列。
参考集的更新频率与数据集 D\mathcal{D}D 的扩充同步,每 TupdateT_{\text{update}}Tupdate 步执行一次。更新过程如下:
- 遍历最新采集的轨迹批次,计算每条轨迹的平均视频-文本相似度;
- 将高分轨迹的状态序列加入候选池;
- 对候选池与现有参考集合并排序,保留 top-kkk 样本;
- 重新计算参考集的期望相关性 mutextref=mathbbEs′simmathcalDtextref[ftextMVRS(s′)]\\mu_{\\text{ref}} = \\mathbb{E}_{s' \\sim \\mathcal{D}^{\\text{ref}}} [ f^{\\text{MVRS}}(s') ]mutextref=mathbbEs′simmathcalDtextref[ftextMVRS(s′)]。
随着策略进步,参考集的质量门槛不断提高,mutextref\\mu_{\\text{ref}}mutextref 单调上升(或保持稳定),这使得 rtextVLMr^{\\text{VLM}}rtextVLM 的衰减具有单向性------一旦行为达到某一水平,塑形项不会反向增大,防止了策略的退化。
是
否
新轨迹
VLM评分
高于门槛
加入候选
丢弃
合并排序
保留top-k
更新参考集
4.2 离策略奖励重标定
MVRS兼容同策略与离策略强化学习算法。对于离策略方法(如TQC),经验回放缓冲区中存储的历史样本的奖励必须在 ftextMVRSf^{\\text{MVRS}}ftextMVRS 更新后重新计算。这是因为状态相关性模型每 TtextupdateT_{\\text{update}}Ttextupdate 步发生参数变化,旧模型对历史状态的评估与新模型可能差异显著。
奖励重标定(Reward Relabeling)流程如下:每当 ftextMVRSf^{\\text{MVRS}}ftextMVRS 完成更新,遍历回放缓冲区中的全部或抽样样本,用新模型重新计算 rtextVLM(s)r^{\\text{VLM}}(s)rtextVLM(s),并更新合成奖励 rtextMVRSr^{\\text{MVRS}}rtextMVRS。这一操作保证了离策略样本的时序差分(Temporal Difference, TD)目标始终与当前奖励模型一致,避免了价值函数估计的系统性偏差。
虽然重标定引入了额外的计算开销,但由于 ftextMVRSf^{\\text{MVRS}}ftextMVRS 本身为轻量级网络(仅两层MLP),且更新频率较低(每 10510^5105 步一次),整体开销在可接受范围内。相比之下,每步都查询VLM的方法(如原始VLM-RM)在计算成本上完全不可扩展。
4.3 完整训练循环
MVRS的训练循环可概括为以下五个阶段,与标准RL训练交错执行:
阶段一:策略执行 。智能体根据当前策略 KaTeX parse error: Got function '\\' with no arguments as subscript at position 6: \\pi_\̲\̲theta 在环境中采集轨迹,收集状态转移 (st,at,rttexttask,st+1)(s_t, a_t, r^{\\text{task}}t, s{t+1})(st,at,rttexttask,st+1)。
阶段二:视频渲染与VLM查询 。每隔 TtextrenderT_{\\text{render}}Ttextrender 步,从近期轨迹中抽取 646464 帧片段,经多视角渲染后送入ViCLIP,获取视频嵌入与视频-文本相似度分数。
阶段三:数据集扩充 。将状态序列、视频嵌入与相似度分数加入动态数据集 mathcalD\\mathcal{D}mathcalD,并更新参考集 mathcalDtextref\\mathcal{D}^{\\text{ref}}mathcalDtextref。
阶段四:模型更新 。每隔 TtextupdateT_{\\text{update}}Ttextupdate 步,使用 mathcalD\\mathcal{D}mathcalD 中的最新样本训练状态相关性模型 ftextMVRSf^{\\text{MVRS}}ftextMVRS,采用早停防止过拟合。
阶段五:奖励合成与策略优化 。利用最新的 ftextMVRSf^{\\text{MVRS}}ftextMVRS 与 mathcalDtextref\\mathcal{D}^{\\text{ref}}mathcalDtextref 计算 rtextVLMr^{\\text{VLM}}rtextVLM,合成 rtextMVRSr^{\\text{MVRS}}rtextMVRS 后驱动策略梯度更新。对于离策略算法,同步执行奖励重标定。
到达
未到达
到达
未到达
未收敛
收敛
开始
策略执行
渲染周期
视频编码
继续采集
数据集更新
模型周期
训练相关性模型
奖励合成
策略优化
收敛判断
结束
5. 实验验证与性能分析
5.1 基准任务与基线方法
实验在两类高挑战度基准上进行验证:
HumanoidBench 。涵盖 999 个人形机器人运动控制任务,包括站立(Stand)、行走(Walk)、奔跑(Run)、滑铲(Slide)、坐下(Sit Simple / Sit Hard)、平衡(Balance Simple / Balance Hard)与上楼梯(Stair)。这些任务具有超高维状态空间(100+100+100+ 维本体感知)与复杂动态约束,对奖励设计的精细度要求极高。
MetaWorld 。涵盖 101010 个机械臂操作任务,如推物(Push)、开窗(Window Close)、抽屉操作等,考察MVRS在灵巧操作场景中的泛化能力。
基线方法包括:
- TQC:标准离策略强化学习,仅使用任务奖励;
- VLM-RM:以CLIP-ViT-H-14为骨干,将图像-文本相似度拟合为奖励模型;
- RoboCLIP:以ViCLIP为骨干,提供基于视频-文本相似度的稀疏轨迹级奖励;
- FuRL:将VLM反馈与任务奖励模糊融合的方法。
所有方法共享相同的RL骨干(TQC)与网络架构,以确保比较的公平性。评估指标为训练末期的平均 episode 回报及其标准差。
5.2 人形机器人运动控制性能
在HumanoidBench的 999 个任务中,MVRS全面超越所有基线,尤其在动态运动任务上优势显著:
| 任务 | MVRS | TQC | VLM-RM | RoboCLIP | FuRL |
|---|---|---|---|---|---|
| Stand | 918.55pm29.30918.55 \\pm 29.30918.55pm29.30 | 576.59pm371.00576.59 \\pm 371.00576.59pm371.00 | 低 | 低 | 30.15pm8.3130.15 \\pm 8.3130.15pm8.31 |
| Run | 749.23pm56.82749.23 \\pm 56.82749.23pm56.82 | 647.87pm186.98647.87 \\pm 186.98647.87pm186.98 | 低 | 低 | 13.32pm12.7913.32 \\pm 12.7913.32pm12.79 |
| Slide | 735.03pm142.85735.03 \\pm 142.85735.03pm142.85 | 514.91pm106.36514.91 \\pm 106.36514.91pm106.36 | 低 | 低 | 19.74pm11.8319.74 \\pm 11.8319.74pm11.83 |
| Sit Hard | 756.67pm108.79756.67 \\pm 108.79756.67pm108.79 | 511.85pm155.45511.85 \\pm 155.45511.85pm155.45 | 低 | 低 | 24.56pm2.6924.56 \\pm 2.6924.56pm2.69 |
数据揭示了几个关键规律:
纯任务奖励的局限性 。TQC虽在部分任务中可达中等性能,但回报方差极大(如Stand任务标准差高达 371371371),表明稀疏任务奖励下的学习极不稳定,智能体频繁陷入局部最优。
单帧VLM方法的失效。VLM-RM与RoboCLIP在动态任务中几乎完全失效,回报接近零。这直接验证了单帧图像-文本相似度对奔跑、行走等时序任务的固有不适配------VLM反馈引导智能体维持静态pose而非真正执行运动。
MVRS的压倒性优势。MVRS在所有任务上均取得高回报与低方差,表明多视角视频时序建模与自动衰减塑形共同确保了学习的稳定性与收敛性。在Sit Hard等高难度任务中,MVRS的优势尤为突出,说明视觉反馈对于纠正边界状态(如坐在椅子边缘的不稳定姿态)具有不可替代的作用。
任务难度
简单站立
动态奔跑
复杂坐下
TQC可行
MVRS领先
MVRS显著领先
性能分布
5.3 消融实验与组件贡献
为严格验证各组件的独立贡献,设计四组消融变体:
仅VLM奖励 。移除任务奖励,仅使用 rtextVLMr^{\\text{VLM}}rtextVLM 驱动学习。结果在所有任务上回报低于 101010,完全失败。这表明VLM反馈的本质是引导而非替代------它缺乏任务所需的精确物理反馈(如接触力、平衡约束),单独使用会导致策略崩溃。
仅任务奖励。标准TQC基线,已在主实验中展示其高方差与不稳定性。
完整MVRS。VLM塑形与任务奖励协同,取得最优性能。
时序平均 vs 注意力聚合 。将时序平均替换为基于注意力机制(Attention Mechanism)的自适应池化。在静态任务(如Stand)中,注意力池化略有提升;但在动态任务(如Run)中,注意力机制因训练不稳定导致方差剧增(519.83pm366.45519.83 \\pm 366.45519.83pm366.45 vs 时序平均的 749.23pm56.82749.23 \\pm 56.82749.23pm56.82)。这说明对于高动态运动,简单的时序平均比复杂的注意力加权更稳健。
5.4 多视角信息聚合分析
为验证多视角的必要性,实验对比了单一固定视角与随机轮换视角的性能:
| 视角配置 | Run | Slide | Sit Hard |
|---|---|---|---|
| 前视 | 600.23pm89.12600.23 \\pm 89.12600.23pm89.12 | 510.45pm134.22510.45 \\pm 134.22510.45pm134.22 | 620.11pm145.33620.11 \\pm 145.33620.11pm145.33 |
| 侧视 | 580.15pm95.44580.15 \\pm 95.44580.15pm95.44 | 720.30pm120.55720.30 \\pm 120.55720.30pm120.55 | 590.22pm132.10590.22 \\pm 132.10590.22pm132.10 |
| 后视 | 590.88pm92.10590.88 \\pm 92.10590.88pm92.10 | 480.15pm150.20480.15 \\pm 150.20480.15pm150.20 | 610.45pm128.90610.45 \\pm 128.90610.45pm128.90 |
| 俯视 | 570.30pm98.50570.30 \\pm 98.50570.30pm98.50 | 500.22pm140.80500.22 \\pm 140.80500.22pm140.80 | 580.15pm138.70580.15 \\pm 138.70580.15pm138.70 |
| 随机多视角 | 749.23pm56.82749.23 \\pm 56.82749.23pm56.82 | 735.03pm142.85735.03 \\pm 142.85735.03pm142.85 | 756.67pm108.79756.67 \\pm 108.79756.67pm108.79 |
结果清晰表明:最优视角具有任务依赖性(如Slide任务侧视最优),但没有任何单一视角能在所有任务上保持领先。随机多视角配置通过注意力机制(Attention Mechanism)隐式聚合各视角信息,在Run与Sit Hard任务上取得最佳或次佳性能,验证了多视角互补对于通用行为评估的决定性价值。
5.5 奖励信号相关性分析
在Sit Hard任务上,对奖励信号与成功指标进行皮尔逊相关性分析:
| 信号 | 与成功相关性 | 与任务奖励相关性 |
|---|---|---|
| 原始VLM相似度 | 0.910.910.91 | 0.210.210.21 |
| 学习相关性 ftextMVRSf^{\\text{MVRS}}ftextMVRS | 0.960.960.96 | 0.220.220.22 |
| 塑形奖励 rtextMVRSr^{\\text{MVRS}}rtextMVRS | 0.980.980.98 | 0.850.850.85 |
分析揭示:原始VLM相似度虽与成功高度相关(0.910.910.91),但与任务奖励几乎独立(0.210.210.21),证实了二者信号空间的异构性。经过状态相关性模型提炼后,ftextMVRSf^{\\text{MVRS}}ftextMVRS 与成功的相关性提升至 0.960.960.96。最终的塑形奖励 rtextMVRSr^{\\text{MVRS}}rtextMVRS 与任务奖励相关性达 0.850.850.85,表明自动衰减机制成功地将VLM引导与任务目标耦合,避免了信号冲突。
6. 结论与展望
6.1 核心结论
本文从理论、算法与实验三个维度,系统阐述了多视角视频奖励塑形框架的设计原理与工程实现。核心结论可概括为三点:
第一,单帧图像-文本相似度不适用于动态运动任务。视频-文本相似度通过时序建模捕捉行为的动态演化,从根本上消除了静态姿态偏差,是VLM驱动RL的必由之路。
第二,状态依赖自动衰减是避免策略偏移的关键结构。通过参考集比对实现的塑形项自动归零,确保了VLM引导仅在探索初期发挥作用,不干扰任务奖励主导的最优收敛。
第三,多视角观测的互补性不可替代。没有任何单一视角能够覆盖行为的全部关键信息,随机多视角配置通过隐式聚合实现了对任务的最稳健评估。
6.2 未来方向
MVRS当前采用固定的视角数量与位置配置。未来可探索自适应视角选择------根据任务阶段与当前状态动态调整相机关注区域,例如在学习平衡时优先采用低视角捕捉足部接触,在操作任务中切换至俯视视角监控物体位置。此外,将MVRS的时序建模与 Transformer 架构结合,利用注意力机制(Attention Mechanism)显式建模长程时序依赖,可能在更复杂的节律性任务(如舞蹈、器械操作)中带来新的突破。最后,将视频预测模型与VLM反馈结合,实现"预测-评估-塑形"的闭环,也是值得深入的方向。