一、 前言
由于现有的多模态大语言模型(MLLM)在推理过程中存在无法控制和不透明的问题,视频问答(VideoQA)在实现高级认知推理方面仍然具有挑战性。为了解决这一问题,哔哩哔哩Index团队联合上海交通大学提出了一种新颖的以语言为中心的树状推理(LTR)框架,旨在增强模型的推理能力,该论文已经被 ICML2025 收录,是继 ICLR2025 的工作(ICLR25 重新思考长尾识别中的分类器再训练:标签过平滑可以实现平衡)之后Index团队在AI三大顶会(ICLR/ICML/NeurIPS)的第二项收录。该框架通过递归地将原始问题划分为逻辑上可处理的子问题,并逐步解决这些子问题,从而提升现有MLLM的推理能力和可解释性。首先,在第一阶段,LTR递归地生成一个以语言为中心的逻辑树,逐步将复杂的认知问题分解为简单的感知性问题,并通过基于检索增强生成(RAG)的少样本方法规划推理路径。接着,在第二阶段,在视频内容的辅助下,LTR在该逻辑树中自下而上地进行逻辑推理,以推导出最终答案,并附带可追溯的推理路径。针对11个VideoQA基准数据集进行的实验表明,与最先进的MLLM相比,我们的LTR框架在准确性和可解释性方面都有显著提升。据我们所知,这是首个在VideoQA中引入以语言为中心的逻辑树来指导MLLM推理的工作,为从感知到认知的以语言为中心的视频理解开辟了新路径。

二、 动机
视频问答(VideoQA)已成为一个重要的研究领域,并在多模态理解、交互式人工智能和认知科学中具有广泛应用。其核心挑战在于如何推动以语言为中心的视频理解,从感知层面迈向认知层面。具体而言,低层次的感知涉及对视频的时空特征进行理解,例如识别对象、动作和场景;而高层次的认知则要求系统理解视频内容及提问背后的逻辑结构,能够沿着逻辑链条进行推理并给出准确答案。为应对这些挑战,近期研究通过将大型语言模型(LLM)扩展为多模态版本(MLLM),例如 Video-LLaMA [1,2]和 Video-LLaVA [3],将视觉信息与文本信息相结合。然而,尽管这些模型在回答问题时可以提供一定的解释,但如何实现 System-2 推理尚未得到充分探索。其主要局限在于,这类模型的推理过程往往难以控制且透明度不足。这种不透明性使得分析其推理步骤变得困难,从而降低了结果的可信度。例如,在处理涉及多个时序视觉线索的复杂问题时,模型可能会给出错误答案,却无法展示导致该结论的推理路径。因此,用户无法追溯到推理出错的环节,也就无法信任这些结果。

图1 人类使用System-2思考进行复杂视频问答的过程
一些先前的工作也探索了解释性的视频问答方法,例如 VoT [4] 和 DSTN [5]。VoT 通过在对象和动作层面提供详细分析,构建了一个认知级别的推理框架,并基于细粒度的视频表示进行推理。虽然 VoT 提升了多模态大语言模型(MLLM)的性能,并提供了额外的推理线索,但它在捕捉问题的逻辑结构和充分阐明推理过程方面仍有所不足。与 VoT 不同,我们的推理框架基于以语言为中心的逻辑树设计,提高了可验证性并便于进一步的错误分析。作为另一种方法,DSTN 利用神经模块化网络(NMNs)生成一个程序,然后通过执行该程序获得最终答案。尽管这种方法增强了可验证性,但它缺乏容错性,即程序中的任何错误都会导致不可恢复的错误答案。相比之下,我们的框架提供了一种软推理架构,通过在逻辑推理中补充视频信息,既保证了可解释的推理,又提高了容错能力。
三、方法
为了解决这些问题,我们提出了一种新颖的、无需训练且与模型无关的以语言为中心的树状推理(Language-centric Tree Reasoning, LTR)框架,该框架在增强模型推理能力的同时,提高了推理过程的可解释性和可验证性。我们的框架以语言作为视频理解的核心驱动力,从问题自身所蕴含的逻辑结构出发。首先,通过整合视频内容,我们从给定的问题递归地生成一个完整的以语言为中心的逻辑树。该逻辑树具有两个显著特征:其一,层次化结构能够明确地呈现原始问题的推理逻辑;其二,叶节点由简单的感知性问题构成,使得现有MLLM在感知能力上能够得到有效利用。为了生成这样的逻辑树,MLLM会递归地将问题划分为更简单且逻辑合理的子问题,并判断这些子问题是否足够简单,以至可以作为叶节点对应的感知性问题。接着,为了利用生成的以语言为中心的逻辑树进行多模态的 System-2 推理,我们首先让MLLM回答所有叶节点的问题,为后续的自下而上推理过程建立证据基础。然后,在视频内容的辅助下,我们在逻辑树内部递归地进行自下而上的逻辑推理,通过验证视觉证据的一致性,将子节点的回答汇总为父节点的答案,最终获得原始问题的解答以及完整且可追溯的推理路径。该框架的整体结构如图二所示。

图2 LTR框架
在第一阶段,我们的 LTR 递归地将复杂的认知问题拆分为更简单的问题,直到它们成为感知性问题。
在第二阶段,我们的 LTR 回答这些感知性叶节点问题,并沿着以语言为中心的逻辑树自下而上地推理,逐步回到原始问题。
在这两个阶段中,为了保证框架的泛化性能,避免在特定数据上进行SFT带来的泛化性下降,我们将整个过程建模为无训练(training-free)的形式。具体使用的prompt可以参考论文正文。
四、 实验
我们在 11 个 VideoQA 基准数据集上评估了 LTR 框架,包括 MSVD-QA [6]、MSRVTT-QA [6]、TGIF-QA [7]、ActivityNet-QA [8]、AGQA-Decomp [9]、NExT-QA [10]、CausalVidQA [11]、STAR [12]、EgoSchema [13]、Video-MME [14]和 MVBench [15]。对于开放式问答,我们使用 GPT-3.5 对生成的回答进行评估,采用准确率和打分指标;对于选择题,我们则使用相应的 MLLM 仅基6于问题和生成的回答,从提供的选项中选择答案。为了展示组合一致性的改进,我们在 AGQA-Decomp 上采用 VA3(Liao et al., 2024)提供的组合指标(cR、cP、c-F1)进行评估。

表 1. 在 AGQA-Decomp 上关于准确率、得分和组合一致性的性能。标记为"main"和"sub"的列分别表示在以语言为中心的逻辑树中针对根问题和非根问题计算的相应指标。蓝色区域的结果为我们使用其公开模型权重和说明复现所得。
在表 1 中,我们将 LTR 与 9 种基线方法在 AGQA-Decomp 上的性能进行了比较。标记为"main"和"sub"的列分别表示在以语言为中心的逻辑树中针对根问题和非根问题计算的相应指标。实验结果表明,我们的框架在准确率、得分和组合一致性方面均显著优于基线方法,这归功于协同的组合推理策略。为了评估组合一致性,我们利用 AGQA-Decomp 测试集中的有向无环图(DAG)进行自下而上的树状推理。关于准确率提升,我们发现子问题(sub-question)的增益相较于主问题(main-question)更为明显,这是因为子问题相对更简单,更有助于实现有效推理。此外,cF1 的提升幅度远大于准确率的提升。这一改进主要归功于视频辅助逻辑推理模块,该模块利用结构内部的逻辑关系,使得感知性问题中的问答信息可以沿树状结构向上传播,从而帮助模型回答更多认知性问题,进而增强主问题与子问题之间的组合一致性。

表 2. 在 MVBench 上的实验结果。白色区域的结果来源于相应的工作或 MVBench (Li et al., 2024b),蓝色区域的结果为我们使用其公开模型权重和说明复现所得。

表 3. 在 Causal-VidQA 上的零样本性能。D:描述,E:解释,P:预测,C:反事实,A:全部。Acc@E 和 Acc@C 分别在 answer 和 reason 设置下报告。蓝色区域的结果为我们使用其公开模型权重和说明复现所得。

表 4. 在 NExT-QA 上的实验结果。D:描述性,T:时序性,C:因果性。白色区域的结果来源于相应工作或 VoT(Fei et al., 2024a),蓝色区域的结果为我们使用其公开模型权重和说明复现所得。
在表 2 到 4 中,我们展示了在三个基准(Causal-VidQA、NeXT-QA 和 MVBench)上的零样本性能对比,其他基准的对比结果可在论文中找到。总体而言,我们的框架显著优于各基线模型,这一优势得益于"自顶向下递归检查的划分"与"自底向上树状推理的征服"两个协同阶段。将简单的感知定位任务与复杂的认知推理任务进行对比时,我们发现 LTR 在相对复杂的认知推理任务上带来的提升更为显著。例如,表 3 中对于反事实推理(counterfactual)和预测任务(prediction)的提升幅度在 2.4% 到 4.2% 之间,而对解释(explanation)和描述(description)任务的提升则仅在 0.9% 到 2.1% 之间。这是因为前者需要更复杂的逻辑推理能力,而我们的以语言为中心的树状推理过程能够系统地支持这种复杂推理。
具体而言,"自顶向下递归检查的划分"阶段引导 MLLM 提取复杂推理所需的感知信息,而"自底向上树状推理的征服"阶段则通过递归的逻辑推理,逐步汇聚可感知的视觉线索,最终通过分步的复杂推理推导出答案。正是这两个阶段的有机结合(即 LTR 框架),既提升了 MLLM 的复杂推理能力,又保持了推理过程的可追溯性。
在 MVBench(表 2)和 NeXT-QA(表 4)中也可以观察到类似的模式。具体来看,表 2 显示,在以推理为主的任务(如反事实推断 (CI)、情节推理 (ER) 和动作预测 (AP))上,性能提升要明显高于在简单感知任务(如对象存在 (OE)、动作计数 (AC) 和细粒度姿态 (FP))上的提升。此外,表 4 证明在因果问题与时序问题上,相较于描述性问题的提升更大。这些观察结果共同表明,LTR 框架对于 MLLM 的认知推理能力的增强远超过对其感知能力的提升。
五、 总结
在本工作中,我们提出了一种新颖的两阶段以语言为中心的树状推理(LTR)框架,以增强多模态大语言模型(MLLM)的推理能力和透明性。在第一阶段,LTR 递归地生成以语言为中心的逻辑树,以语言作为核心驱动力,将复杂的认知问题逐步转化为简单的感知性问题。在第二阶段,在视频内容的辅助下,LTR 在逻辑树内部自下而上地进行逻辑推理,通过递归方式得出最终答案,并提供完整且可追溯的推理路径。为了增强 MLLM 的逻辑划分能力,我们采用检索增强生成(RAG)来指导问题的拆分。跨越 11 个 VideoQA 基准的大规模实验表明,与最先进的 MLLM 相比,LTR 框架在准确性和可解释性方面均有显著提升。总体而言,本工作实现了一个可追溯的树状推理框架,为未来从感知到认知的以语言为中心的视频理解研究铺平了道路。
参考文献
1\] Chen, J., Yan, J., Fang, Y., and Niu, L. Meta-point learning and refining for category-agnostic pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 23534--23543, 2024. \[2\] Zhang, H., Li, X., and Bing, L. Video-LLaMA: An instruction-tuned audio-visual language model for video understanding. In EMNLP, pp. 543--553, 2023. \[3\] Lin, B., Zhu, B., Ye, Y., Ning, M., Jin, P., and Yuan, L. Video-LLaVA: Learning united visual representation by alignment before projection. In EMNLP, 2024. \[4\] Fei, H., Wu, S., Ji, W., Zhang, H., Zhang, M., Lee, M. L., and Hsu, W. Video-of-thought: Step-by-step video reasoning from perception to cognition. In ICML, 2024a. \[5\] Qian, Z., Wang, X., Duan, X., Chen, H., and Zhu, W. Dynamic spatio-temporal modular network for video question answering. In ACM MM, pp. 4466--4477, 2022. \[6\] Xu, J., Mei, T., Yao, T., and Rui, Y. MSR-VTT: A large video description dataset for bridging video and language. In CVPR, pp. 5288--5296, 2016. \[7\] Jang, Y., Song, Y., Yu, Y., Kim, Y., and Kim, G. TGIFQA: Toward spatio-temporal reasoning in visual question answering. In CVPR, pp. 1359--1367, 2017. \[8\] Yu, Z., Xu, D., Yu, J., Yu, T., Zhao, Z., Zhuang, Y., and Tao, D. ActivityNet-QA: A dataset for understanding complex web videos via question answering. In AAAI, pp. 9127--9134, 2019. \[9\] Gandhi, M., Gul, M. O., Prakash, E., Grunde-McLaughlin, M., Krishna, R., and Agrawala, M. Measuring compositional consistency for video question answering. In CVPR, pp. 5046--5055, 2022. \[10\] Xiao, J., Shang, X., Yao, A., and Chua, T. NExT-QA: Next phase of question-answering to explaining temporal actions. In CVPR, pp. 9777--9786, 2021 \[11\] Li, J., Niu, L., and Zhang, L. From Representation to Reasoning: Towards both evidence and commonsense reasoning for video question-answering. In CVPR, pp. 21241--21250, 2022a. \[12\] Wu, B., Yu, S., Chen, Z., Tenenbaum, J. B., and Gan, C. STAR: A benchmark for situated reasoning in real-world videos. In NeurIPS, 2023. \[13\] Mangalam, K., Akshulakov, R., and Malik, J. EgoSchema: A diagnostic benchmark for very long-form video language understanding. In NeurIPS, pp. 46212--46244, 2023. \[14\] Fu, C., Dai, Y., Luo, Y., Li, L., Ren, S., Zhang, R., Wang, Z., Zhou, C., Shen, Y., Zhang, M., et al. Video-MME: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis. arXiv preprint arXiv:2405.21075, 2024 \[15\] Li, K., Wang, Y., He, Y., Li, Y., Wang, Y., Liu, Y., Wang, Z., Xu, J., Chen, G., Luo, P., et al. MVBench: A comprehensive multi-modal video understanding benchmark. In CVPR, pp. 22195--22206, 2024b. -End- 作者丨Fengshun、白露霞光、麻由、zhangqiang