Meta AI最新推出的长视频语言理解多模态模型LongVU分享

LongVU是由Meta AI团队推出的一种专注于长视频语言理解的多模态模型。

LongVU的架构设计包括使用DINOv2技术去除冗余帧,融合剩余帧的特征,通过跨模态查询选择性地减少视觉标记,根据时间依赖关系进行空间标记压缩,以进一步适应大型语言模型的有限上下文长度。

LongVU利用基于文本引导的跨模态查询来选择性地减少视频帧的特征,能保留与文本查询最相关的帧的详细信息,将其他帧减少到低分辨率的标记表示。

LongVU能有效处理1fps采样的视频输入,且能适应性地将每小时长视频的平均每个帧的标记数量减少到2个,适应8k上下文长度的多模态大型语言模型。

LongVU模型的出现为长视频的语言理解提供了一种有效的解决方案,通过减少视频标记的数量并保留视觉细节,LongVU不仅提高了视频处理的效率,还保持了视频内容的完整性。

github项目地址:https://github.com/Vision-CAIR/LongVU。

一、环境安装

1、python环境

建议安装python版本在3.10以上。

2、pip库安装

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3、LongVU_Qwen2_7B_img 模型下载

git lfs install

git clone https://huggingface.co/Vision-CAIR/LongVU_Qwen2_7B_img

4、LongVU_Qwen2_7B 模型下载

git lfs install

git clone https://huggingface.co/Vision-CAIR/LongVU_Qwen2_7B

二**、功能测试**

1、运行测试

(1)python代码调用测试

复制代码
import numpy as np
import torch
from longvu.builder import load_pretrained_model
from longvu.constants import DEFAULT_IMAGE_TOKEN, IMAGE_TOKEN_INDEX
from longvu.conversation import conv_templates, SeparatorStyle
from longvu.mm_datautils import KeywordsStoppingCriteria, process_images, tokenizer_image_token
from decord import cpu, VideoReader

def describe_video(video_path, model_path="./checkpoints/longvu_qwen", model_name="cambrian_qwen", query="Describe this video in detail"):
    # Load pretrained model and tokenizer
    tokenizer, model, image_processor, context_len = load_pretrained_model(model_path, None, model_name)
    model.eval()

    # Read and process the video
    vr = VideoReader(video_path, ctx=cpu(0), num_threads=1)
    fps = float(vr.get_avg_fps())
    frame_indices = np.array([i for i in range(0, len(vr), round(fps))])
    video = np.stack([vr[frame_index].asnumpy() for frame_index in frame_indices])
    image_sizes = [video[0].shape[:2]]
    video = process_images(video, image_processor, model.config)
    video = [item.unsqueeze(0) for item in video]

    # Prepare the query
    qs = f"{DEFAULT_IMAGE_TOKEN}\n{query}"
    conv = conv_templates["qwen"].copy()
    conv.append_message(conv.roles[0], qs)
    conv.append_message(conv.roles[1], None)
    prompt = conv.get_prompt()

    # Tokenize input
    input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors="pt").unsqueeze(0).to(model.device)
    stop_str = conv.sep if conv.sep_style != SeparatorStyle.TWO else conv.sep2
    stopping_criteria = KeywordsStoppingCriteria([stop_str], tokenizer, input_ids)

    # Generate description
    with torch.inference_mode():
        output_ids = model.generate(
            input_ids,
            images=video,
            image_sizes=image_sizes,
            do_sample=False,
            temperature=0.2,
            max_new_tokens=128,
            use_cache=True,
            stopping_criteria=[stopping_criteria],
        )

    # Decode the output
    description = tokenizer.batch_decode(output_ids, skip_special_tokens=True)[0].strip()
    return description

# Example usage
video_description = describe_video("./examples/video1.mp4")
print(video_description)

未完......

更多详细的欢迎关注:杰哥新技术

相关推荐
飞Link10 分钟前
智能体时代的“紧箍咒”:深度解析 Agent 治理架构与 AI 杀伤开关
人工智能·架构
飞Link15 分钟前
2000 亿砸向算力:字节跳动 AI 基建跨越,后端与运维的“万亿 Token”生死战
运维·人工智能
zhangfeng113328 分钟前
小龙虾 wordbuddy 安装浏览器控制器 agent-browser npm install -g agent-browse
前端·人工智能·npm·node.js
阿里云大数据AI技术29 分钟前
一条 SQL 生成广告:Hologres 如何实现素材生成到投放分析一体化
人工智能·sql
liudanzhengxi37 分钟前
GitSubmodule避坑全攻略
人工智能·新人首发
用户4252108006039 分钟前
Claude Code Linux 服务器部署与配置
人工智能
OJAC11141 分钟前
学过Python却不敢投AI岗,他最后拿下12K offer
人工智能
Bigger42 分钟前
因为看不懂小棉袄的画,我写了个 AI 程序帮我“翻译”她的世界
前端·人工智能·ai编程
CeshirenTester44 分钟前
LangChain的工具调用 vs 原生Skill API:性能差在哪儿?
java·人工智能·langchain
爱问的艾文1 小时前
八周带你手搓AI应用-第二周-让AI更像人-第1天-流式输出改造
人工智能