【论文自动阅读】Stable Language Guidance for Vision-Language-Action Models

这份论文介绍了一种名为**残差语义引导（RSS）**的新框架，旨在解决视觉-语言-动作（VLA）模型在机器人控制中"听不懂人话"或过度依赖视觉本能的问题。它通过数学方法剥离视觉干扰，强制模型关注语言的真实意图。

🚀 快速了解部分

基础信息（英文）

题目: Stable Language Guidance for Vision-Language-Action Models
时间年月: August (8月), 2025 (基于参考文献推断)
机构名: Sun Yat-sen University (中山大学), Guangdong Key Lab of Big Data Analysis & Processing, X-Era AI Lab
3个英文关键词: Vision-Language-Action (VLA), Residual Semantic Steering (RSS), Instruction Robustness

1句话通俗总结本文干了什么事情

本文提出了一种叫RSS的方法，让机器人即使面对乱序、啰嗦或残缺的指令，也能通过"减去视觉本能+增强语言意图"准确完成任务。

研究痛点：现有研究不足 / 要解决的具体问题

当前的VLA模型存在严重的**"模态崩溃"和"指令盲目性"**。由于视觉信号太强，模型往往忽略语言指令，仅根据场景默认执行动作（如总是抓最近的物体），且对语言的微小变化（如换种说法）极其脆弱。

核心方法：关键技术、模型或研究设计（简要）

提出了**残差语义引导（RSS）**框架，包含两个核心组件：

🧐 深入了解部分

相比前人创新在哪里

解决方法/算法的通俗解释

想象一个机器人：

普通人（普通模型）：看到桌子上有杯子，即使你不说，他也想伸手去抓（视觉本能）。
RSS机器人 ：
- 它先算出自己"本能想抓杯子"的冲动值。
- 再算出你下指令后它"想做的动作"的值。
- 它用后者减去前者，得到纯粹由你指令引起的动作增量。
- 这样，即使你指令说得不清楚，它也不会乱动；指令说得清楚，它就能精准执行。

解决方法的具体做法

训练阶段（MCSI）：利用Oracle Teacher（如Qwen2.5-VL）将一条指令扩增为多种句式（同义句、复杂句等），让模型学习这些不同句子对应同一个动作，从而忽略句式噪声。
推理阶段（RAS） ：
- 计算条件分数 s(a|o,l)（看指令做事）。
- 计算无条件分数 s(a|o,0)（不看指令凭本能做事）。
- 计算残差：Delta s = s(a|o,l) - s(a|o,0)。
- 最终动作 = 本能动作 + gamma * 残差（放大语言带来的微小变化）。

基于前人的哪些方法

基础模型：基于 pi_0 (Black et al., 2024) 和 pi_0.5 (Intelligence et al., 2025) 以及 Gemma 模型。
理论基础：借鉴了分类器自由引导（Classifier-Free Guidance, CFG）的思想，但对其进行了重新定义和修正。

实验设置、数据、评估方式

基准环境：LIBERO (Liu et al., 2023) 模拟基准，包含空间、物体、目标和长程任务。
评估指标：任务成功率（Success Rate, SR）。
扰动测试 ：
- 破坏性覆盖：指令变为空白、乱序、全掩码。
- 模糊重解释：指令加入无关干扰、常识描述代替名词、推理链提示。
- OOD迁移：训练未见过的任务组合。

提到的同类工作

和本文相关性最高的3个文献

Ho and Salimans, 2022 (Classifier-free Diffusion Guidance)：RSS算法的直接理论来源（CFG），本文是对其在机器人控制领域的修正和应用。
Black et al., 2024 (pi_0)：本文所基于的主要基线模型之一，用于验证RSS在破坏性指令下的提升效果。
Fei et al., 2025 (Libero-Plus)：指出了当前VLA模型存在"指令盲目性"的审计工作，这正是本文试图解决的核心痛点。