VideoAgent——使用大规模语言模型作为代理来理解长视频

概述

论文地址:https://arxiv.org/pdf/2403.10517

本研究引入了一个新颖的基于代理的系统,名为 VideoAgent。该系统以大规模语言模型为核心,负责识别关键信息以回答问题和编辑视频。VideoAgent 在具有挑战性的 EgoSchema 和 NExT-QA 基准上进行了评估,平均帧数分别为 8.4 帧和 8.2 帧,零镜头准确率分别达到 54.1% 和 71.3%。的零镜头准确率。

介绍

理解长视频需要能够处理各种信息并有效推理长序列的模型。现有的尝试发现,要建立能满足所有这些要求的模型非常困难。目前的大规模语言模型适合处理长语境,但不足以处理视觉信息。另一方面,视觉语言模型被认为难以处理长视觉输入。我们的系统模仿了视频理解过程,侧重于推理能力而不是处理长视觉输入;VideoAgent 比现有方法更有效、更高效,是长视频理解领域的一大进步。

相关研究

传统方法包括对视频进行选择性或压缩性处理。压缩稀疏性方法试图将视频压缩为有意义的嵌入或表示。选择性压缩方法则试图根据输入的问题或文本对视频进行子采样。代理是做出决策和执行行动的实体。大规模语言建模(LLM)技术的进步促使越来越多的研究将 LLM 作为代理来使用。这种方法已成功应用于多种场景,如在线搜索和纸牌游戏。受人类理解视频方式的启发,本研究将视频理解重新表述为一个决策过程。

建议方法

  1. 初始状态检索:.

首先,向 LLM 展示视频中的均匀采样帧,使其熟悉视频上下文。视觉语言模型(VLM)用于将视觉信息转化为语言描述。这种初始状态记录了视频内容和含义的概况。

  1. 决定下一步行动:。

考虑到当前情况,LLM 决定下一步行动;有两种可能的选择。一个是回答问题,另一个是搜索新信息;LLM 会考虑问题和现有信息,进行反思,并根据置信度选择行动。

  1. 收集新的观察结果:。

需要新信息时,LLM 使用工具来检索。有些信息是在分段级别收集的,以增强时间推理功能。获取的信息可作为更新当前状态的观测信息。

  1. 最新现状:.

考虑到新的观察结果,VLM 用于为每一帧生成标题,然后请求 LLM 生成下一轮的预测。

与传统方法相比,这种方法具有若干优势。特别是,收集信息的适应性选择策略可以找到相关信息,并将回答不同难度问题所需的成本降至最低。

试验

数据集和衡量标准

EgoSchema 包含一个以自我为中心的视频,包含 5000 个问题;NExT-QA 包含一个以物体互动为特色的自然视频,包含 48000 个问题。自然视频,包含 48,000 个问题。

实施细节。

所有视频都以 1 帧/秒的速度解码,并根据视觉描述和帧特征之间的余弦相似度检索出最相关的帧。在实验中,我们将 LaViLa 用于 EgoSchema,将 CogAgent 用于 NExT-QA。GPT-4 也被用作 LLM。

与最先进技术的比较

VideoAgent 在 EgoSchema 和 NExT-QA 数据集上取得了 SOTA 结果,明显优于之前的方法。例如,它在完整的 EgoSchema 数据集上取得了 54.1% 的准确率,在 500 个问题的子集上取得了 60.2% 的准确率。

迭代帧选择分析。

VideoAgent 的关键组件之一是迭代帧选择。这一过程会动态检索和汇总信息,直到收集到足够的信息来回答问题。为了更好地理解这一过程,我们进行了全面的分析和消融研究。

基本模型的消融

LLM(大型语言模型):对不同的 LLM 进行了比较,发现 GPT-4 的性能优于其他模型;GPT-4 在结构化预测方面尤为突出,在生成准确的 JSON 格式方面表现出色。

VLM(视觉语言模型):对三种最先进的 VLM 进行了研究,结果发现 CogAgent 和 LaViLa 的性能相近,而 BLIP-2 的性能较差。

CLIP(对比语言图像模型):对不同版本的 CLIP 进行了评估,结果表明,所有版本的 CLIP 性能相当;CLIP 在检索任务方面更胜一筹,而且效率更高,因为它不需要重新计算图像嵌入。

案例研究

我们以解析 NExT-QA 实例为例,说明视频代理如何识别缺失信息、确定所需的附加信息并使用 CLIP 检索详细信息。

演示了 VideoAgent 如何正确解析 YouTube 上一小时的视频。演示者强调,在这种情况下,GPT-4V 可以提供已识别的帧来正确回答问题。

结论

本研究介绍了一个视频理解系统,该系统利用一个名为 VideoAgent 的大规模语言模型,通过多轮迭代过程有效地检索和聚合信息,展示了其在理解长视频方面的卓越效果和效率。今后的工作将集中在改进和整合模型、将其扩展到实时应用、将其应用到各种应用领域以及改进用户界面等方面,这将进一步推进和拓宽 VideoAgent 的应用。

相关推荐
中國龍在廣州6 分钟前
现在人工智能的研究路径可能走反了
人工智能·算法·搜索引擎·chatgpt·机器人
快手技术7 分钟前
NeurIPS 2025 | 可灵团队提出 Flow-GRPO, 首次将在线强化学习引入流匹配生成模型
算法
攻城狮7号15 分钟前
小米具身大模型 MiMo-Embodied 发布并全面开源:统一机器人与自动驾驶
人工智能·机器人·自动驾驶·开源大模型·mimo-embodied·小米具身大模型
搜移IT科技19 分钟前
【无标题】2025ARCE亚洲机器人大会暨展览会将带来哪些新技术与新体验?
人工智能
星释20 分钟前
Rust 练习册 67:自定义集合与数据结构实现
数据结构·算法·rust
信也科技布道师FTE39 分钟前
当AMIS遇见AI智能体:如何为低代码开发装上“智慧大脑”?
人工智能·低代码·llm
青瓷程序设计40 分钟前
植物识别系统【最新版】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积神经网络算法
人工智能·python·深度学习
AI即插即用1 小时前
即插即用系列 | CVPR 2025 WPFormer:用于表面缺陷检测的查询式Transformer
人工智能·深度学习·yolo·目标检测·cnn·视觉检测·transformer
唐兴通个人1 小时前
数字化AI大客户营销TOB营销客户开发专业销售技巧培训讲师培训师唐兴通老师分享AI销冠人工智能销售AI赋能销售医药金融工业品制造业
人工智能·金融
EasyCVR1 小时前
视频汇聚平台EasyCVR打造阳光药房远程可视化智慧监管体系
音视频