论文阅读“Thinker: A vision-language foundation model for embodied intelligence“

目录

摘要

When large vision-language models (VLMs) are applied in the field of robotics, they encounter problems that are simple for humans yet error-prone for the models. Such issues include confusion between third-person and first-person perspectives, and a tendency to overlook information in video endings during video reasoning.

To address these challenges, we propose Thinker, a large vision-language foundation model designed for embodied intelligence. We tackle the aforementioned issues from two perspectives.

Firstly, we construct a large-scale dataset tailored for robotic perception and reasoning, which encompasses ego-view videos, visual grounding, spatial understanding, and chain-of-thought data.

Secondly, we introduce a simple yet effective approach that substantially enhances the model's capacity for video comprehension by jointly incorporating key frames and full videos as inputs.

Our models achieve state-of-the-art results on two of the most commonly used benchmark datasets in the field of task planning.

无讨论也无结论。

我来分析这篇关于 Thinker VLM(视觉语言模型)的论文。

论文概述

这是一篇介绍 Thinker 的学术论文,这是一个专为机器人操作和任务规划设计的十亿参数级别视觉语言模型(VLM)。论文重点介绍了模型的数据集构建、架构设计和训练策略。


核心内容分析

1. 数据集构建(四大类别)

论文构建了四个核心数据集,从图1的饼图和柱状图可以看出数据分布:

数据类别 数据集名称 规模 用途
视觉定位 (Visual Grounding) 细粒度空间理解数据 ~570K+667K 学习抓取区域、点定位
第一视角推理 (Ego-View Reasoning) Egoplan-it-100K 100K 时间推理、第一视角任务规划
机器人操作规划 (Robotic Manipulation Planning) Robovideo-1.8M 180万 复杂推理、机器人任务理解
工业任务规划 (Industrial Task Planning) Industroplan-200K 200K 长程推理、多物体操作

关键数据洞察(从右侧柱状图):

  • 视频数据 (Video) 占比最大,约1800K
  • 2D物体点定位 (2D Object Point) 约1250K
  • 混合视觉问答 (Mix Vqa) 约1050K
  • 工业规划、3D空间指代、自我规划等专项数据相对较少但针对性强

2. 模型架构

Thinker 采用经典的多模态架构:

  • 文本分词器 (Text Tokenizer)
  • 视觉编码器 (Visual Encoder)
  • MLP对齐层 --- 对齐视觉与语言空间
  • 语言模型主干 (Language Model Backbone)

这种设计实现了视觉-语言-时间的统一表示,使模型能够:

  • 准确捕捉视觉细节
  • 理解任务指令
  • 在多种场景下进行推理

3. 训练策略(两阶段)

阶段 目标 数据
Stage-1 建立基础感知与推理能力 通用数据集 + 空间理解数据集 + 大规模规划数据集
Stage-2 下游任务对齐 针对特定规划任务的监督微调

关键技巧 :在视频理解训练时,将每个视频片段的最后一帧作为辅助输入,增强时序理解能力。


实验结果

评测基准

  • Robovqa:机器人多模态长程推理,使用 BLEU-1/2/3/4 指标
  • Egoplan-bench2:真实场景规划能力,使用 Top-1 准确率

主要结果(Thinker-7B vs SOTA)

Robovqa 表现

  • BLEU-1/2/3/4: 72.7 / 65.7 / 59.5 / 56.0
  • 平均 BLEU: 63.5(超越第二名 RoboBrain 0.8分)
  • 超越 GPT-4V,证明机器人定制化训练的必要性

Egoplan-bench2 表现

  • 准确率: 58.2(全面超越所有基线)
  • 在四个领域中的三个获得第一
  • 在家庭、休闲、专业、工作场景均表现优异

对比基线

包括开源和闭源模型:Qwen2.5-VL-7B、GPT-4V、Cosmos-Reason1-7B、ThinkAct-7B、RoboBrain系列等。


论文贡献总结

  1. 数据层面:构建了180万规模的机器人规划数据集 Robovideo-1.8M,以及面向工业场景的 Industroplan-200K
  2. 模型层面:开发了100亿参数级别的统一视觉语言模型,专用于机器人操作
  3. 性能层面:在多个机器人基准上达到SOTA,证明了专业化训练的价值
  4. 开源承诺:计划发布完整技术报告、架构和权重

局限与未来工作

  • 论文为简短版本,完整技术报告即将发布
  • 计划探索基于该模型的世界模型视频-语言-动作模型

相关推荐
薛定e的猫咪7 天前
【AAAI 2025】基于扩散模型的昂贵多目标贝叶斯优化
论文阅读·人工智能·算法
YMWM_7 天前
论文阅读“SimVLA: A Simple VLA Baseline for Robotic Manipulation“
论文阅读·vla
m0_650108247 天前
VLN-Zero:零样本机器人导航的神经符号视觉语言规划框架
论文阅读·零样本·机器人导航·视觉语言导航·未知环境快速适配·符号化场景图·vlm推理
晓山清8 天前
【论文阅读】Self-supervised Learning of Person-specific Facial Dynamics for APR
论文阅读
张较瘦_8 天前
[论文阅读] AI + 教育 | 不是单纯看视频!软件工程培训的游戏化融合之道
论文阅读·人工智能·软件工程
张较瘦_8 天前
[论文阅读] AI + 软件工程 | 用统计置信度破解AI功能正确性评估难题——SCFC方法详解
论文阅读·人工智能·软件工程
一颗小树x8 天前
《VLA 系列》DM0 | 流匹配 | 具身空间推理增强 | 空间思维链
vla·流匹配·dm0·具身空间推理·空间思维链
Matrix_119 天前
论文阅读--Agent AI 探索多模态交互的前沿领域(二)
论文阅读·人工智能
BackCatK Chen9 天前
2026智驾决赛圈:洗牌、技术决战与3大生死门槛
算法·华为·gpu算力·vla·世界模型
万里鹏程转瞬至10 天前
论文简读 | TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times
论文阅读·深度学习·aigc