【CVPR26-韩国科学技术院】令牌扭曲技术助力多模态大语言模型从邻近视角观察场景

gorgeous(๑>؂<๑）2026-04-13 19:07

文章：Token Warping Helps MLLMs Look from Nearby Viewpoints

代码：https://token-warping-mllm.github.io/

单位：韩国科学技术院（KAIST）

一、问题背景

多模态大语言模型（MLLMs）虽在视觉推理任务中表现优异，却对视角变化极为敏感。传统像素级扭曲方法极易受深度误差影响，引发几何畸变与语义信息丢失；即便融入3D感知特征、显式3D监督，模型也难以完成可靠的视角转换推理，无法像人类一样从邻近新视角理解场景结构。

二、方法创新

研究团队提出**Token Warping（令牌扭曲）**方法，以图像令牌为单元实现视角变换，核心创新如下：

变换单元升级 ：用ViT架构的图像令牌替代像素，令牌兼具细节与鲁棒性，可抵抗几何噪声；
优选反向扭曲：在目标视角构建密集规则网格，反向映射至源图检索令牌，避免正向扭曲的稀疏空洞问题；
两种令牌获取策略：最近邻获取（高效轻量）、自适应获取（精准匹配）；

零微调适配：推理阶段直接使用，无需微调模型，不破坏原有能力。

三、实验结果

团队构建专用基准ViewBench，验证视角空间推理与目标视角物体描述能力：

反向令牌扭曲在所有任务设置下，超越像素扭曲、专用空间推理MLLMs、生成式视角合成等全部基线；
在视角重叠最低（5%-15%）的困难场景中，精度提升超12个百分点；
基于预估深度/相机位姿、大视角偏移、物体遮挡等复杂条件下，性能依旧稳定优于像素级方法；
最近邻获取与自适应获取效果相近，前者更适合落地使用。

四、优势与局限

核心优势

鲁棒性强：抵御深度误差，无几何畸变，完整保留语义信息；
轻量高效：推理开销极小，即插即用，无需额外训练；
泛化性好：单张图像即可完成邻近视角的推理转换。

现存局限

仅支持邻近小范围视角变换，无法处理大幅跨视角场景；
依赖深度图与相对相机位姿，几何信息质量会影响最终效果；
物体完全遮挡时，推理精度会出现一定下降。

五、一句话总结

反向令牌扭曲以图像令牌为单元替代像素扭曲，让多模态大模型无需生成新图像，就能轻量、鲁棒地完成邻近视角的场景推理，全面优于传统方法。

上一篇：Visual Studio 上传工程到github

下一篇：【C】局部变量和全局变量及同名情况

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI科技热点日报 | 2026年07月01日 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结