视频理解

紫雾凌寒25 天前
人工智能·深度学习·计算机视觉·自监督学习·vit·视频理解·mae
深度学习|MAE技术全景图:自监督学习的“掩码魔法“如何重塑AI基础深度学习(Deep Learning)无疑是当今人工智能领域基础中的基础。从图像识别到自然语言处理(NLP),它在无数任务中展现了卓越性能。例如,在安防监控中,基于深度学习的卷积神经网络(CNN)能够以毫秒级速度识别人脸特征,实现高效的门禁解锁;在医疗领域,深度学习模型通过分析 X 光、CT 或 MRI 图像,辅助医生发现肿瘤或骨折等异常,显著提升诊断效率;在自动驾驶中,它实时检测道路上的行人、车辆和交通标志,确保行车安全。这些成就依赖于强大的计算能力和精心设计的神经网络架构,但也暴露出一个致命的弱点:对
伊织code25 天前
音视频·视觉·视频理解·小模型·smolvlm·端侧
SmolVLM2 - 将视频理解带到每个设备本文翻译整理自:SmolVLM2: Bringing Video Understanding to Every Device https://huggingface.co/blog/smolvlm2
紫雾凌寒1 个月前
人工智能·深度学习·计算机视觉·transformer·vit·swintransformer·视频理解
计算机视觉|Swin Transformer:视觉 Transformer 的新方向在计算机视觉领域的发展历程中,卷积神经网络(CNN) 长期占据主导地位。从早期的 LeNet 到后来的 AlexNet、VGGNet、ResNet 等,CNN 在图像分类、目标检测、语义分割等任务中取得了显著成果。然而,CNN 在捕捉全局信息和处理长距离依赖关系方面存在局限性。与此同时,Transformer Architektur 在自然语言处理(NLP)领域表现出色,凭借自注意力机制有效捕捉序列数据中的长距离依赖关系,例如 GPT 系列模型在语言生成和问答系统中的成功应用。
紫雾凌寒1 个月前
人工智能·深度学习·计算机视觉·transformer·vit·视频理解
计算机视觉|ViT详解:打破视觉与语言界限在计算机视觉领域的发展中,卷积神经网络(CNN)一直占据重要地位。自 2012 年 AlexNet 在 ImageNet 大赛中取得优异成绩后,CNN 在图像分类任务中显示出强大能力。随后,VGG、ResNet 等深度网络架构不断出现,推动了图像分类、目标检测、语义分割等任务的性能提升,促进了计算机视觉技术的快速发展。
紫雾凌寒1 个月前
人工智能·python·深度学习·计算机视觉·音视频·视频理解·slowfast
计算机视觉 |解锁视频理解三剑客——SlowFast在如今这个信息爆炸的时代,视频数据呈指数级增长,从日常的社交媒体分享,到安防监控的海量记录,再到智能驾驶中的环境感知,视频无处不在。视频理解作为计算机视觉领域的关键研究方向,旨在让计算机能够像人类一样理解视频中的内容,包括识别物体、理解行为、分析场景等 ,其重要性不言而喻。它为众多领域带来了革新性的解决方案,在安防领域,通过视频理解技术,监控系统能够自动识别异常行为,如入侵、斗殴等,及时发出警报,大大提高了安全防范的效率;在智能交通中,可实现对车辆行为的分析,用于交通流量监测、违章驾驶行为识别,助力交通管
点云SLAM3 个月前
python·计算机视觉·音视频·视频监控·视频处理·视频理解
CVPR 2024 视频处理方向总汇(视频监控、视频理解、视频识别和视频预测等)
疯狂的小强呀6 个月前
大模型·文本生成·视频理解
视频理解大模型最新进展2023:阿里达摩院的一个多模态大语言模型产品论文:https://arxiv.org/abs/2306.02858
伊织code7 个月前
人工智能·大模型·llm·数据集·任务·视频理解·vid
Awesome-LLMs-for-Video-Understanding - 基于大型语言模型的视频理解研究Awesome-LLMs-for-Video-Understanding 是 基于大型语言模型的视频理解研究
AI记忆9 个月前
aigc·音视频·多模态·视频理解·视频问答
视频与音频的交响:探索达摩院VideoLLaMA 2的技术创新文章:https://arxiv.org/abs/2406.07476代码:https://github.com/DAMO-NLP-SG/VideoLLaMA2