Video-P2P:通过控制 cross-attention 编辑视频

Paper: Liu S, Zhang Y, Li W, et al. Video-p2p: Video editing with cross-attention control[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 8599-8608.
Introduction: https://video-p2p.github.io/
Code: https://github.com/dvlab-research/Video-P2P

Video-P2P 是第一个实现真实世界视频编辑的框架,将图像生成扩散模型适配于视频编辑任务。Video-P2P 先微调一个文本到集合的模型来进行反演,然后优化一个共享的无条件嵌入,以小内存代价实现准确的视频反转。在注意力控制方面,Video-P2P 引入了一种解耦引导策略,为源提示和目标提示使用不同的引导策略。针对源提示优化的无条件嵌入提高了重建能力,而为目标提示初始化的无条件嵌入增强了可编辑性。将这两个分支的注意力图结合起来,使得编辑更加精细。

复现

实验过程

  1. 克隆仓库后,创建虚拟环境 vp2p 并按照 README 安装依赖;

  2. 初始化模型时遇到 ImportError: cannot import name 'cached_download' from 'huggingface_hub' 报错:

    ~/anaconda3/envs/vp2p/lib/python3.9/site-packages/diffusers/dynamic_modules_utils.py 中的 from huggingface_hub import HfFolder, cached_download, hf_hub_download, model_info 注释掉即可 [1](#1)

  3. 然后又遇到 NotImplementedError: Using RTX 4000 series doesn't support faster communication broadband via P2P or IB. 报错:

    运行时加上 NCCL_P2P_DISABLENCCL_IB_DISABLE 参数即可:NCCL_P2P_DISABLE="1" NCCL_IB_DISABLE="1" python run_tuning.py --config="configs/rabbit-jump-tune.yaml"

  4. 又遇到 RuntimeError: Numpy is not available 报错:
    numpy 降级成 1.26.4 即可 [2](#2)pip install numpy==1.26.4

实验结果

原视频:

编辑视频:


  1. cannot import name 'cached_download' from 'huggingface_hub' #1851 ↩︎

  2. RuntimeError: Numpy is not availableL Using numpy with torch [duplicate] ↩︎

相关推荐
码上宝藏4 天前
Shotcut 25.12版本更新解析:高色深工作流优化与全平台功能升级
视频编辑
Android系统攻城狮7 天前
XUbuntu22.04之视频编辑利器:kdenlive剪切视频片段+自动转码输出(二百八十七)
ai·音视频·视频转码·视频编辑·xubuntu22.04
AI生成未来16 天前
超越Veo和Runway!可灵开源Kling-Omni:一个模型通吃视频生成、剪辑和多模态推理!
aigc·多模态·视频编辑·视频生成·世界模拟器·世界交互
skyjilygao21 天前
n8n整合ffmpeg
ffmpeg·视频编辑·n8n
AI生成未来24 天前
NeurIPS 2025 | 硬刚可灵1.5!阿里通义&清华等开源Wan-Move:指哪动哪的“神笔马良”
aigc·视频编辑·视频生成
AI生成未来1 个月前
ICCV 2025 | 北大王选所推出AnyPortal:像素级操控视频背景,前景细节100%保留!
人工智能·扩散模型·视频编辑·视频生成
Lab4AI大模型实验室2 个月前
【每日Arxiv热文】还在为视频编辑发愁?港科大&蚂蚁集团提出Ditto框架刷新SOTA!
人工智能·计算机视觉·视频编辑·ai agent·智能体学习
m0_650108243 个月前
【论文精读】FlowVid:驯服不完美的光流,实现一致的视频到视频合成
人工智能·计算机视觉·扩散模型·视频编辑·视频生成·论文精读·不完美光流
胖虎15 个月前
(二十)深入了解 AVFoundation-编辑:使用 AVMutableVideoComposition 实现视频加水印与图层合成(下)——实战篇
音视频·视频编辑·视频添加水印
W7910265 个月前
Android视频编辑方案测评:轻量化剪辑工具的性能表现
实用工具·视频编辑·免费开源