技术栈
internvideo2.5
lovep1
1 个月前
大模型
·
基础模型
·
视频理解
·
mllms
·
internvideo2.5
InternVideo2.5:Empowering Video MLLMs with Long and Rich Context Modeling
MLLM的问题点:MLLM在基本视觉相关任务上的表现仍不如人类,这限制了其理解和推理能力。它们在识别、定位和回忆常见场景中的物体、场景和动作时表现不佳。