Mind-Cube介绍

文章:Spatial Mental Modeling from Limited Views

团队:李飞飞,谢赛宁

任务设计

MindCube问题类型就是三种:rotation / around / among。

问题的形式是数张multiview的图片

回答方式就是做选择题

数据集信息

数据集规模:

21, 154 questions across 3, 268 images,organized into 976 multi-view groups

这一整个benchmark的数据集算下来有:21, 154 questions across 3, 268 images,是要比VSI bench大得多的

作者在测试时,其实使用的是一个更小的子集(MindCube-Tiny)

一共1,050 questions:其中

600 from the among,

250 from around,

200 from rotation

实验结果

作者首先在MindCube-Tiny上测试了不做SFT的模型效果:

作者试了不同的setting:

对于模型生成的cognitive map,做了正确性的分析:

MindCube是有用于微调的数据集的:下面是在Qwen2.5-VL-3B-Instruct上微调后得到的结果:

微调模型后,再进行强化学习可以进一步提升模型的效果:

SFT数据构造:

数据分为:cognitive maps and free-form reasoning chains

cognitive maps是通过模板和尽心设计的函数来自动生成的

微调数据集:10k QA pairs

微调时的参数:

微调时用的是权量微调:DeepSpeed with a ZeRO Stage 3 optimization strategy for efficient full-parameter fine-tuning

作者还测试了只训练模型的不同部分:vision encoder和LLM,发现只训练vision encoder基本没有提升,

上面的实验得出结论:vision encoder 实际上只编码了物体的语意特征,而忽略了物体和场景的空间特征,这大概率是因为在vision encoder预训练时,vision encoder只学会了将视觉特征和text描述对齐的能力。而没有学习到物体空间位置的能力。

相关推荐
小超同学你好2 分钟前
OpenClaw 深度解析系列 · 第8篇:Learning & Adaptation(学习与自适应)
人工智能·语言模型·chatgpt
紫微AI11 分钟前
前端文本测量成了卡死一切创新的最后瓶颈,pretext实现突破了
前端·人工智能·typescript
码途漫谈20 分钟前
Easy-Vibe开发篇阅读笔记(四)——前端开发之结合 Agent Skills 美化界面
人工智能·笔记·ai·开源·ai编程
易连EDI—EasyLink25 分钟前
易连EDI–EasyLink实现OCR智能数据采集
网络·人工智能·安全·汽车·ocr·edi
冬奇Lab37 分钟前
RAG 系列(二):用 LangChain 搭建你的第一个 RAG Pipeline
人工智能·langchain·llm
学习论之费曼学习法1 小时前
多模态大模型实战:用 GPT-4o API 打造 AI 助手,能看、能听、能说!
人工智能
昨夜见军贴06161 小时前
IACheck与AI报告审核,开启供应商资质核验报告审核新篇章
人工智能
m0_726365831 小时前
Ai漫剧系统 几分钟,让AI 把一篇小说变成了一部漫剧成片:从剧本到视频的全流程系统实现
人工智能·语言模型·ai作画·音视频
AIwenIPgeolocation1 小时前
出海应用合规与风控平衡术:可信ID的全球安全实践
人工智能·安全
WordPress学习笔记1 小时前
镌刻中式美学的高端WordPress主题
大数据·人工智能·wordpress