视频理解

寻丶幽风3 天前
论文阅读·人工智能·笔记·视频理解
论文阅读笔记——Quo Vadis, Action Recognition? A New Model and the Kinetics DatasetI3D 论文 UCF-101(13000多个视频)和 HMDB-51(7000多个视频)数据集过小,提出了 Kinetics 数据集,并且在其之上预训练之后能够迁移到其他小的数据集。
寻丶幽风21 天前
论文阅读·笔记·深度学习·视频理解·双流网络
论文阅读笔记——双流网络双流网络论文 视频相比图像包含更多信息:运动信息、时序信息、背景信息等等。 原先处理视频的方法:光流是描述视频中物体的运动信息,对每个点实际上都是需要计算的,故而是一种密集表示。在本文中,作者将光流值压缩至 [0,255],采用 JPEG 存储。(光流的弊端——存储空间大、提取速度慢) 在本文中,光流采取了两种方式:1)简单叠加:每个点多次光流的叠加,光流点位置不更新;2)按轨迹叠加:每一帧都根据光流轨迹,更新光流点位置。(在本文实验中第一种方式更好,但实际上第二种更合理。) 在光流网络中,对所有视频首先
lovep12 个月前
大模型·基础模型·视频理解·mllms·internvideo2.5
InternVideo2.5:Empowering Video MLLMs with Long and Rich Context ModelingMLLM的问题点:MLLM在基本视觉相关任务上的表现仍不如人类,这限制了其理解和推理能力。它们在识别、定位和回忆常见场景中的物体、场景和动作时表现不佳。
紫雾凌寒3 个月前
人工智能·深度学习·计算机视觉·自监督学习·vit·视频理解·mae
深度学习|MAE技术全景图:自监督学习的“掩码魔法“如何重塑AI基础深度学习(Deep Learning)无疑是当今人工智能领域基础中的基础。从图像识别到自然语言处理(NLP),它在无数任务中展现了卓越性能。例如,在安防监控中,基于深度学习的卷积神经网络(CNN)能够以毫秒级速度识别人脸特征,实现高效的门禁解锁;在医疗领域,深度学习模型通过分析 X 光、CT 或 MRI 图像,辅助医生发现肿瘤或骨折等异常,显著提升诊断效率;在自动驾驶中,它实时检测道路上的行人、车辆和交通标志,确保行车安全。这些成就依赖于强大的计算能力和精心设计的神经网络架构,但也暴露出一个致命的弱点:对
伊织code3 个月前
音视频·视觉·视频理解·小模型·smolvlm·端侧
SmolVLM2 - 将视频理解带到每个设备本文翻译整理自:SmolVLM2: Bringing Video Understanding to Every Device https://huggingface.co/blog/smolvlm2
紫雾凌寒3 个月前
人工智能·深度学习·计算机视觉·transformer·vit·swintransformer·视频理解
计算机视觉|Swin Transformer:视觉 Transformer 的新方向在计算机视觉领域的发展历程中,卷积神经网络(CNN) 长期占据主导地位。从早期的 LeNet 到后来的 AlexNet、VGGNet、ResNet 等,CNN 在图像分类、目标检测、语义分割等任务中取得了显著成果。然而,CNN 在捕捉全局信息和处理长距离依赖关系方面存在局限性。与此同时,Transformer Architektur 在自然语言处理(NLP)领域表现出色,凭借自注意力机制有效捕捉序列数据中的长距离依赖关系,例如 GPT 系列模型在语言生成和问答系统中的成功应用。
紫雾凌寒3 个月前
人工智能·深度学习·计算机视觉·transformer·vit·视频理解
计算机视觉|ViT详解:打破视觉与语言界限在计算机视觉领域的发展中,卷积神经网络(CNN)一直占据重要地位。自 2012 年 AlexNet 在 ImageNet 大赛中取得优异成绩后,CNN 在图像分类任务中显示出强大能力。随后,VGG、ResNet 等深度网络架构不断出现,推动了图像分类、目标检测、语义分割等任务的性能提升,促进了计算机视觉技术的快速发展。
紫雾凌寒3 个月前
人工智能·python·深度学习·计算机视觉·音视频·视频理解·slowfast
计算机视觉 |解锁视频理解三剑客——SlowFast在如今这个信息爆炸的时代,视频数据呈指数级增长,从日常的社交媒体分享,到安防监控的海量记录,再到智能驾驶中的环境感知,视频无处不在。视频理解作为计算机视觉领域的关键研究方向,旨在让计算机能够像人类一样理解视频中的内容,包括识别物体、理解行为、分析场景等 ,其重要性不言而喻。它为众多领域带来了革新性的解决方案,在安防领域,通过视频理解技术,监控系统能够自动识别异常行为,如入侵、斗殴等,及时发出警报,大大提高了安全防范的效率;在智能交通中,可实现对车辆行为的分析,用于交通流量监测、违章驾驶行为识别,助力交通管
点云SLAM5 个月前
python·计算机视觉·音视频·视频监控·视频处理·视频理解
CVPR 2024 视频处理方向总汇(视频监控、视频理解、视频识别和视频预测等)
疯狂的小强呀8 个月前
大模型·文本生成·视频理解
视频理解大模型最新进展2023:阿里达摩院的一个多模态大语言模型产品论文:https://arxiv.org/abs/2306.02858
伊织code9 个月前
人工智能·大模型·llm·数据集·任务·视频理解·vid
Awesome-LLMs-for-Video-Understanding - 基于大型语言模型的视频理解研究Awesome-LLMs-for-Video-Understanding 是 基于大型语言模型的视频理解研究
AI记忆1 年前
aigc·音视频·多模态·视频理解·视频问答
视频与音频的交响:探索达摩院VideoLLaMA 2的技术创新文章:https://arxiv.org/abs/2406.07476代码:https://github.com/DAMO-NLP-SG/VideoLLaMA2