智源推出小时级超长视频理解大模型Video-XL

北京智源人工智能研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等高校推出了一款名为Video-XL的超长视频理解大模型。这款模型是多模态大模型核心能力的重要展示,也是向通用人工智能(AGI)迈进的关键步骤。与现有多模态大模型相比,Video-XL在处理超过10分钟的长视频时,展现了更优的性能和效率。

Video-XL利用语言模型(LLM)的原生能力,对长视觉序列进行压缩,保留了短视频理解的能力,并在长视频理解上显示出了卓越的泛化能力。该模型在多个主流长视频理解基准评测的多项任务中均排名第一。Video-XL在效率与性能之间实现了良好平衡,仅需一块80G显存的显卡即可处理2048帧输入,对小时级长度视频进行采样,并在视频"海中捞针"任务中取得了接近95%的准确率。

Video-XL有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现广泛的应用价值,成为长视频理解的得力助手。该模型的推出,标志着长视频理解技术在效率和准确性上迈出了重要一步,为未来长视频内容的自动化处理和分析提供了强有力的技术支持。

目前,Video-XL的模型代码已经开源,以促进全球多模态视频理解研究社区的合作和技术共享。

论文标题:Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

论文链接:https://arxiv.org/abs/2409.14485

模型链接:https://huggingface.co/sy1998/Video_XL

项目链接:https://github.com/VectorSpaceLab/Video-XL

相关推荐
Elastic 中国社区官方博客几秒前
Elasticsearch Reindex 现已支持跨节点自动迁移:无需人工干预,不会丢失进度
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
Raink老师1 分钟前
【AI面试临阵磨枪-93】Skill 性能优化:冷启动、并发、内存、IO、缓存?
人工智能·面试·性能优化
高工智能汽车3 分钟前
从芯片到场景:BOS半导体以Physical AI定义车载AI Box新范式
人工智能
one_love_zfl4 分钟前
Conllect-LLM:一个低代码 AI Agent 构建平台的设计与实现
人工智能·低代码
花落yu4 分钟前
AI学习:第2天
人工智能·python·学习
极光代码工作室5 分钟前
基于深度学习的文本自动摘要系统
人工智能·python·深度学习·神经网络
z小猫不吃鱼6 分钟前
09 语言模型训练目标:MLM、CLM、Seq2Seq LM 有什么区别?
人工智能·语言模型·自然语言处理
卡梅德生物科技小能手8 分钟前
卡梅德生物科技深度解析LAG3(淋巴细胞活化基因3)
网络·人工智能·经验分享
糖果店的幽灵9 分钟前
Claude Code 完全实战指南 - 第一章:安装配置与本地大模型
人工智能·claude
大鹏的NLP博客9 分钟前
AI 正在改变软件工程:我的 AI 协同开发实践
人工智能·软件工程