多模态大语言模型arxiv论文略读(113)➡️ 论文标题:Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos ➡️ 论文作者:Qirui Chen, Shangzhe Di, Weidi Xie ➡️ 研究机构: Shanghai Jiao Tong University ➡️ 问题背景:当前的视频问答(VideoQA)系统在处理长形式的自拍视频时,面临多跳推理和时间定位的挑战。这些系统通常只能基于单一时间点的视觉线索回答问题,而无法处理需要跨多个时间间隔的信息整合和推理的任务。此外