Mind-Cube介绍

文章:Spatial Mental Modeling from Limited Views

团队:李飞飞,谢赛宁

任务设计

MindCube问题类型就是三种:rotation / around / among。

问题的形式是数张multiview的图片

回答方式就是做选择题

数据集信息

数据集规模:

21, 154 questions across 3, 268 images,organized into 976 multi-view groups

这一整个benchmark的数据集算下来有:21, 154 questions across 3, 268 images,是要比VSI bench大得多的

作者在测试时,其实使用的是一个更小的子集(MindCube-Tiny)

一共1,050 questions:其中

600 from the among,

250 from around,

200 from rotation

实验结果

作者首先在MindCube-Tiny上测试了不做SFT的模型效果:

作者试了不同的setting:

对于模型生成的cognitive map,做了正确性的分析:

MindCube是有用于微调的数据集的:下面是在Qwen2.5-VL-3B-Instruct上微调后得到的结果:

微调模型后,再进行强化学习可以进一步提升模型的效果:

SFT数据构造:

数据分为:cognitive maps and free-form reasoning chains

cognitive maps是通过模板和尽心设计的函数来自动生成的

微调数据集:10k QA pairs

微调时的参数:

微调时用的是权量微调:DeepSpeed with a ZeRO Stage 3 optimization strategy for efficient full-parameter fine-tuning

作者还测试了只训练模型的不同部分:vision encoder和LLM,发现只训练vision encoder基本没有提升,

上面的实验得出结论:vision encoder 实际上只编码了物体的语意特征,而忽略了物体和场景的空间特征,这大概率是因为在vision encoder预训练时,vision encoder只学会了将视觉特征和text描述对齐的能力。而没有学习到物体空间位置的能力。

相关推荐
EQUINOX1几秒前
【ch03】Coding-attention-mechanisms
人工智能·深度学习·机器学习
俊哥V1 分钟前
每日 AI 研究简报 · 2026-06-10
人工智能·ai
美狐美颜sdk3 分钟前
从0到1解析直播APP开发中的第三方美颜SDK集成方案
人工智能·直播美颜sdk·视频美颜sdk·美颜api·美狐美颜sdk
海森大数据3 分钟前
好的不新颖,新颖的不好:生成式AI的结构性困局
人工智能
团象科技6 分钟前
从一线实操案例拆解不同出海团队落地海外VPS运维独立站的路径细节
大数据·数据库·人工智能
传说故事8 分钟前
【论文阅读】DATA SCALING LAWS IN IMITATION LEARNING FOR ROBOTIC MANIPULATION
论文阅读·人工智能·机器人·具身智能
Olivia0514051411 分钟前
Voohu:以太网变压器在汽车级温度循环(-40℃~125℃)下的开路电感退化模型与寿命预测
人工智能·信息与通信
“码”力全开14 分钟前
解耦异构算力:基于 Docker 与边缘计算的 AI 视频管理平台,实现 GB28181/RTSP 统一接入与源码交付深度解析
人工智能·docker·边缘计算
老饼讲解-BP神经网络17 分钟前
具体说说-RBF神经网络-newrbe函数和newrb函数的区别
人工智能·深度学习·神经网络
coft17 分钟前
Hermes 多角色实战:我做了一个智能投研系统
人工智能