【AI论文】UniVG-R1：基于强化学习的推理引导通用视觉定位

摘要：传统的视觉基础方法主要集中在具有简单文本引用的单图像场景中。然而，将这些方法扩展到涉及隐式和复杂指令的真实场景，特别是与多幅图像结合使用时，会带来重大挑战，这主要是由于缺乏跨多种多模态上下文的高级推理能力。在这项工作中，我们的目标是解决更实际的通用基础任务，并提出UniVG-R1，这是一种推理引导的多模态大型语言模型（MLLM），用于通用视觉基础，它通过强化学习（RL）结合冷启动数据来增强推理能力。具体来说，我们首先构建了一个高质量的思维链（CoT）基础数据集，并标注了详细的推理链，通过监督式微调引导模型走向正确的推理路径。随后，我们执行基于规则的强化学习，以鼓励模型识别正确的推理链，从而激励其推理能力。此外，随着强化学习训练的进行，我们发现了由于简单样本的普遍存在而产生的难度偏差，我们提出了一种难度感知的权重调整策略，以进一步加强性能。实验结果证明了UniVG-R1的有效性，它在MIG-Bench上达到了最先进的性能，比之前的方法提高了9.1%。此外，我们的模型具有很强的泛化能力，在四个图像和视频推理基准测试中，零样本性能平均提高了23.4%。项目页面可以在Github。Huggingface链接：Paper page，论文链接：2505.14231

研究背景和目的

研究背景

随着人工智能技术的快速发展，视觉定位（Visual Grounding）作为连接视觉和语言的重要任务，受到了广泛关注。传统的视觉定位方法主要聚焦于单图像场景，依赖于预定义的类别或简单的文本描述来进行目标区域的识别和定位。然而，在实际应用中，用户指令往往更加隐晦和复杂，涉及多幅图像之间的复杂关系和推理。这种场景对视觉定位系统提出了更高的要求，需要系统具备跨多模态上下文的高级推理能力。

近年来，多模态大型语言模型（Multimodal Large Language Models, MLLMs）的发展为视觉定位任务提供了新的可能性。MLLMs能够同时处理图像和文本信息，展现出强大的理解和推理能力。然而，尽管MLLMs在理解文本指令方面取得了显著进展，但它们在处理涉及多幅图像和复杂指令的通用视觉定位任务时仍存在局限。具体来说，现有方法缺乏在多样多模态上下文中进行高级推理的能力，导致在面对隐晦和复杂指令时表现不佳。

研究目的

本研究旨在解决通用视觉定位任务中的上述挑战，提出一种基于强化学习的推理引导多模态大型语言模型（UniVG-R1）。UniVG-R1的目标是通过强化学习结合冷启动数据来增强模型的推理能力，从而在涉及隐晦和复杂指令的多图像场景中实现更准确的视觉定位。具体来说，本研究旨在：

提升推理能力：通过引入推理链（Chain-of-Thought, CoT）和强化学习，使模型能够在复杂多模态上下文中进行高级推理。
构建高质量数据集：构建一个高质量的思维链基础数据集，标注详细的推理链，以指导模型通过监督式微调走向正确的推理路径。
解决难度偏差：识别并解决强化学习训练过程中由于简单样本普遍存在而产生的难度偏差，提出一种难度感知的权重调整策略。
验证模型性能：在多个基准测试集上验证UniVG-R1的性能，展示其在通用视觉定位任务中的有效性和优越性。

研究方法

数据集构建

本研究首先构建了一个高质量的思维链基础数据集。该数据集从现有的多图像基础数据集中随机采样项目，并利用预训练的MLLMs（如Qwen-VL-MAX）生成详细的推理链。具体来说，对于每个样本，模型被要求以"思考过程(x1,y1),(x2,y2)"的格式生成推理过程和最终答案。生成三个推理链后，使用Qwen-VL-MAX评估并选择最佳的一个作为最终答案。最终，收集了76k个样本，并进行了人工验证，确保数据集的高质量。

监督式微调（SFT）

利用构建的思维链基础数据集，对Qwen2-VL-7B模型进行监督式微调。这一阶段的训练旨在使模型能够学习结构化的推理轨迹，并具备初步的定位能力。通过监督式微调，模型能够理解并遵循详细的推理过程，从而在后续的强化学习阶段中更好地进行推理。

强化学习（RL）

在监督式微调的基础上，本研究采用基于规则的强化学习算法（GRPO）来进一步增强模型的推理能力。GRPO算法通过生成多个响应，并使用基于规则的可验证奖励函数来评估每个响应的质量。具体来说，本研究使用了准确率奖励（Accuracy Reward）和格式奖励（Format Reward）来鼓励模型生成与真实值接近且格式正确的预测框。通过最大化这些奖励，模型被引导选择正确的推理链，从而增强其推理能力。

难度感知的权重调整策略

在强化学习过程中，本研究发现随着训练的进行，简单样本的比例逐渐增加，导致模型难以关注到困难样本。为了解决这个问题，提出了一种难度感知的权重调整策略。该策略根据样本的难度动态调整其权重，使得模型在训练过程中更加关注困难样本。具体来说，引入了一个与样本平均准确率奖励负相关的难度系数，用于动态调整样本的权重。

研究结果

性能提升

实验结果表明，UniVG-R1在MIG-Bench基准测试集上达到了最先进的性能，比之前的方法提高了9.1%。此外，在四个图像和视频推理基准测试集上，UniVG-R1在零样本设置下的性能平均提高了23.4%。这些结果证明了UniVG-R1在通用视觉定位任务中的有效性和优越性。

泛化能力

UniVG-R1不仅在基准测试集上表现出色，还展现出了强大的泛化能力。在零样本设置下，模型能够在未见过的图像和视频上实现准确的视觉定位，这表明模型已经学习到了通用的推理策略，能够泛化到新的场景中。

消融实验

通过消融实验，本研究验证了各个组件对模型性能的影响。具体来说，监督式微调阶段为模型提供了初步的定位能力，而强化学习阶段则进一步增强了模型的推理能力。难度感知的权重调整策略在训练后期显著提升了模型的性能，表明该策略有效地解决了难度偏差问题。

研究局限

尽管UniVG-R1在通用视觉定位任务中取得了显著进展，但仍存在一些局限性：

数据集规模：虽然本研究构建了一个高质量的思维链基础数据集，但其规模相对较小。未来可以考虑扩大数据集规模，以进一步提高模型的性能和泛化能力。
模型复杂度：UniVG-R1基于Qwen2-VL-7B模型进行训练，该模型具有较大的参数规模。虽然这有助于提升模型的性能，但也增加了训练和推理的计算成本。未来可以考虑探索更轻量级的模型架构，以降低计算成本。
推理链生成：本研究使用预训练的MLLMs生成推理链，这可能引入一定的噪声和不一致性。未来可以考虑开发更可靠的推理链生成方法，以提高数据集的质量。
多模态融合：虽然UniVG-R1能够处理图像和文本信息，但在多模态融合方面仍有改进空间。未来可以考虑探索更先进的多模态融合技术，以进一步提升模型的性能。

未来研究方向

基于本研究的结果和局限性，未来可以从以下几个方面进行深入研究：

扩大数据集规模：收集更多的多图像基础数据，并构建更大规模的思维链基础数据集。这将有助于提升模型的性能和泛化能力。
探索轻量级模型架构：研究更轻量级的模型架构，以降低训练和推理的计算成本。这可以通过模型剪枝、量化或知识蒸馏等技术实现。
改进推理链生成方法：开发更可靠的推理链生成方法，以提高数据集的质量。这可以通过引入更先进的自然语言处理技术或结合人类专家知识实现。
增强多模态融合能力：探索更先进的多模态融合技术，以更好地结合图像和文本信息。这可以通过引入注意力机制、跨模态交互或图神经网络等技术实现。
拓展应用场景：将UniVG-R1应用于更多的实际场景中，如机器人导航、自动驾驶或智能监控等。这将有助于验证模型的实用性和有效性，并推动相关技术的发展。
结合其他技术：考虑将UniVG-R1与其他技术（如目标检测、图像分割或自然语言生成）相结合，以构建更强大的视觉语言系统。这将有助于拓展模型的应用范围，并提升其在复杂任务中的性能。