VisionWeaver:从“现象识别”到“病因诊断”,开启AI视觉幻觉研究新篇章

前言

长久以来,我们只知道大型视觉语言模型(LVLM)会犯错,但始终缺乏一把"手术刀",无法剖析其视觉感知的根源性缺陷。我们只知其然,不知其所以然。我们希望当 AI 模型观察图像时,不再凭空想象,不再"指鹿为马"。

现在,这一瓶颈被打破了。bilibili 用户技术中心提出 VisionWeaver 及其核心诊断工具 VHBench-10 ,带来了创新性的视角。VisionWeaver 不再依赖单一编码器,而是开创性地提出"上下文感知路由网络",动态协同多个"视觉专家" 。而这一切得以实现的基础,正是其专门打造的诊断基准 VHBench-10------它让幻觉研究从 "识别现象"迈向了"诊断病因" 的新阶段。此工作已被 EMNLP 2025 Findings 录用。

相关链接

论文介绍

大型视觉语言模型(LVLM)的"幻觉"问题是阻碍其应用的核心障碍。以往的评测方法(如POPE)虽然有价值,但普遍停留在粗粒度层面,大多只关注"图片中是否存在某个物体"这类简单判断。这就像医生只知道病人发烧,却无法定位具体的病灶。这种"只知其然"的评测方式,无法揭示幻觉产生的根本原因,更无法为模型的改进提供针对性指导。

为了解决这一核心痛点,本研究首先提出了全新的诊断工具------VHBench-10基准。 它开创性地将幻觉问题溯源至检测、分割、定位、分类这四项基本视觉能力,并进一步细分为10个具体的子任务(如颜色、计数、文本识别等)。通过这个"精准CT扫描",我们首次能够系统性地诊断出不同视觉编码器各自的"能力盲区"。

基于这一深刻洞察,VisionWeaver架构应运而生。它不再是盲目地使用单一编码器,而是构建了一个动态专家协作系统,根据图像内容智能地调度最合适的视觉专家参与决策,从根源上抑制幻觉的产生。

图1 VisionWeaver整体架构

我们的主要贡献点如下:

  1. 提出了VHBench-10------一个革命性的精细化诊断基准,推动幻觉研究从"识别现象"迈向"诊断病因"。 它首次将幻觉与底层视觉任务失败直接挂钩,为精确评估和定位LVLM的视觉能力短板提供了强有力的工具。

  2. 系统性地揭示了不同视觉编码器的幻觉倾向。 通过在VHBench-10上的全面评估,论文首次量化并证实了特定编码器在特定视觉任务上的优势与短板,为解决幻觉问题提供了明确的靶点。

  3. 提出了VisionWeaver------一个强大的LVLM新架构。 它引入上下文感知专家路由机制,能根据图像内容智能地聚合多个专家的视觉知识,效果远超简单的特征融合方法。

  4. 在多个权威基准上取得了SOTA性能。 大量实验表明,VisionWeaver不仅显著降低了幻觉率,还全面提升了模型的综合表现。

方法概述

VisionWeaver 的核心是解决单一视觉编码器能力有限且存在固有偏见的问题 。简单地将多个编码器的特征相加或拼接,实验证明效果并不理想 。为此,VisionWeaver 设计了一套智能、动态的专家协作流程,主要包含两大模块:

上下文感知路由 (Context-Aware Routing): 该机制旨在利用图像的全局语义特征来计算自适应的软路由权重,从而选择最合适的视觉专家 。具体而言,系统将基础 CLIP 编码器输出的[CLS] Token 特征作为路由模块的主要输入 。该 [CLS] Token 被证实能够有效捕获图像的关键全局视觉信息 。路由模块基于此特征生成一组路由信号,即针对每个下游专家编码器(如ConvNext, DINOv2, SAM, Vary等)的动态权重,以此决定不同专家在当前情境下的重要性得分 。

知识增强与特征融合 (Knowledge Enhancement and Fusion): 获得各专家的重要性权重后,系统对所有专家的输出特征进行加权融合(Weighted Fusion),生成一个聚合的专家表征 。为了在引入专家知识的同时不损失原始的细粒度视觉信息,该聚合表征将与基础 CLIP 编码器输出的 Patch Tokens 进行对齐 。实现方式上,通过一个残差式连接(residual-style connection),将聚合的专家特征与原始的 Patch Tokens 进行加法操作 。最终,这份增强后的视觉表征被传递至投影器(Projector),以映射到大型语言模型(LLM)的嵌入空间中,供后续的文本生成使用 。

图2 VHBench-10将幻觉分为4大类10小类

关键特征

  • 精细化幻觉诊断: 依托VHBench-10,从视觉任务根源诊断并解决幻觉问题。

  • 上下文感知路由: 告别单一编码器,智能调度最适合当前任务的视觉专家。

  • 多专家协同融合: 汇集不同编码器的独特优势,实现对图像的全方位、深层次理解。

  • 卓越的幻觉抑制能力: 在多个基准上显著降低幻觉率,提升模型可靠性。

  • 高效推理设计: 通过轻量级专家和KV缓存等机制,在不显著增加延迟的情况下提升性能。

实验

全新的精细化幻觉评估

VHBench-10基准的核心并非简单地判断对错,而是通过对10个细分视觉任务的评估,精准定位模型在感知能力上的具体短板。团队利用GPT-4为近万张图片生成了包含特定类型错误的描述(例如,颜色错误、数量错误等),与正确的描述形成对比,从而精确量化模型在各个维度上的幻觉倾向。

与已有方法的比较

在VHBench-10以及POPE、AutoHallusion等多个幻觉基准测试中,VisionWeaver的表现全面超越了使用单一编码器或简单多编码器融合的方法。如下图所示,无论是在物体存在性、颜色、形状还是文本识别等所有10个细分任务上,VisionWeaver的错误率均为最低,证明了其架构的普适性和有效性。

图3 VisionWeaver在10类细分幻觉任务上均取得最低错误率

总结

VisionWeaver及其核心评测工具VHBench-10,共同将幻觉研究的范式从模糊的现象描述,提升到了病因诊断层面。它不再满足于"知道模型错了",而是要探究"模型为什么会错"。通过VHBench-10提供的深刻洞察,VisionWeaver得以构建一个智能、动态的多专家协作系统,从视觉感知的根源上大幅缓解了幻觉问题。这一"诊断+治疗"的新范式,为构建更可靠、更精确的下一代多模态AI提供了坚实的基础和清晰的实现路径。

-End-

作者丨Jerry酱、Kiren_

相关推荐
道可云2 小时前
AI赋能:农业场景培育如何支撑乡村全面振兴
人工智能
极客代码2 小时前
第七篇:深度学习SLAM——端到端的革命--从深度特征到神经辐射场的建图新范式
人工智能·python·深度学习·计算机视觉·slam·回环检测·地图构建
有Li2 小时前
面向超声半监督分割的类别特异性无标记数据风险最小化|文献速递-文献分享
人工智能·深度学习·计算机视觉
pen-ai2 小时前
【高级机器学习】5. Dictionary learning and Non-negative matrix factorisation
人工智能·机器学习
IT_陈寒2 小时前
React 19新特性实战:5个提升开发效率的技巧与避坑指南
前端·人工智能·后端
声网2 小时前
主动交互和情境感知,AI 硬件是脱离手机屏幕掌控的蓝海机会丨硬件和端侧模型专场@RTE2025 回顾
人工智能·智能手机
WLJT1231231232 小时前
方寸之间藏智慧:家用电器的进化与生活革新
大数据·人工智能
创客匠人老蒋2 小时前
从自动驾驶到智能辅导:人工智能如何重塑商业与生活
人工智能·自动驾驶·生活
ar01233 小时前
AR眼镜在工业制造业的质量检测应用探讨
人工智能·ar