Video-T1:视频生成实时手术刀!清华腾讯「帧树算法」终结闪烁抖动

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎥 「别让AI视频像PPT!清华黑科技让每秒都是电影级」

大家好,我是蚝油菜花。这些视频生成的暴击现场你是否经历过------

  • 👉 用AI生成产品演示视频,物体抽搐得像跳机械舞
  • 👉 精心写的提示词,结果主角跑到第三帧就人间蒸发
  • 👉 4K视频导出像打了马赛克,甲方问「这是诺基亚拍的?」...

今天要颠覆影视圈的 Video-T1 ,正在重写生成规则!清华×腾讯这剂猛药:

  • ✅ 「帧树手术」:像剪辑师逐帧精修,闪烁抖动直接物理阉割
  • ✅ 提示词骨钉术:动态调整提示确保每个画面都忠诚剧本
  • ✅ 实时画质透析:生成时自动追加算力,4K细节堪比毛孔显微镜

已有团队用它量产TVC广告,短剧导演靠AI生成电影长镜头------你的视频生产线,是时候安装「清华牌涡轮增压器」了!

🚀 快速阅读

Video-T1是清华大学与腾讯联合开发的视频生成优化技术。

  1. 核心功能:通过测试阶段动态计算提升视频质量,实现文本到视频的高精度匹配
  2. 技术原理:采用Tree-of-Frames方法分阶段优化帧序列,结合验证器反馈进行自回归扩展与剪枝

Video-T1 是什么

Video-T1 是清华大学和腾讯的研究人员共同推出的视频生成技术,基于测试时扩展(Test-Time Scaling,TTS)提升视频生成的质量和一致性。传统视频生成模型在训练后直接生成视频,Video-T1 在测试阶段引入额外计算资源,基于动态调整生成路径优化视频质量。

研究推出 Tree-of-Frames (ToF) 方法,将视频生成分为多个阶段,逐步优化帧的连贯性和与文本提示的匹配度。Video-T1 为视频生成领域提供新的优化思路,展示测试时扩展的强大潜力。

Video-T1 的主要功能

  • 提升视频质量:在测试阶段增加计算资源,生成更高质量的视频,减少模糊和噪声
  • 增强文本一致性:确保生成的视频符合给定的文本提示,提高视频与文本的匹配度
  • 优化视频连贯性:改善视频帧之间的运动平滑性和时间连贯性,减少闪烁和抖动
  • 适应复杂场景:在处理复杂场景和动态对象时,生成更稳定和真实的视频内容

Video-T1 的技术原理

  • 搜索空间构建:基于测试时验证器(verifiers)提供反馈,结合启发式算法指导搜索过程
  • 随机线性搜索:在推理时增加噪声候选样本,逐步去噪生成视频片段,选择验证器评分最高的结果
  • Tree-of-Frames(ToF)方法
    • 图像级对齐:初始帧的生成影响后续帧
    • 动态提示应用:在测试验证器中动态调整提示,关注运动稳定性和物理合理性
    • 整体质量评估:评估视频的整体质量,选择与文本提示最匹配的视频
  • 自回归扩展与剪枝:基于自回归方式动态扩展和剪枝视频分支,提高生成效率

如何运行 Video-T1

🔧 安装

依赖环境:

bash 复制代码
git clone https://github.com/liuff19/Video-T1.git
cd VideoT1
conda create -n videot1 python==3.10
conda activate videot1
pip install -r requirements.txt
git clone https://github.com/LLaVA-VL/LLaVA-NeXT && cd LLaVA-NeXT && pip install --no-deps -e ".[train]"

💻 推理

1. 快速开始

bash 复制代码
cd VideoT1
python -m videot1.py --prompt "A cat wearing sunglasses and working as a lifeguard at a pool." --video_name cat_lifeguard

2. 多GPU推理

bash 复制代码
python videot1_multigpu.py --prompt "A cat wearing sunglasses and working as a lifeguard at a pool." --video_name cat_lifeguard --reward_device_id 0 --base_device_id 1 --imgcot_device_id 2 --lm_device_id 3

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关推荐
Hcoco_me5 分钟前
具身智能 && 自动驾驶相关岗位的技术栈与能力地图
人工智能·机器学习·自动驾驶
yinyan131432 分钟前
一起学springAI系列一:初体验
java·人工智能·ai
一只鹿鹿鹿1 小时前
【网络安全】信息网络安全建设方案(WORD)
人工智能·安全·spring·web安全·低代码
小拇指~1 小时前
梯度下降的基本原理
人工智能·算法·计算机视觉
AndrewHZ1 小时前
【图像处理基石】如何对遥感图像进行实例分割?
图像处理·人工智能·python·大模型·实例分割·detectron2·遥感图像分割
CodeShare2 小时前
某中心将举办机器学习峰会
人工智能·机器学习·数据科学
那就摆吧2 小时前
U-Net vs. 传统CNN:为什么医学图像分割需要跳过连接?
人工智能·神经网络·cnn·u-net·医学图像
深度学习实战训练营2 小时前
中英混合的语音识别XPhoneBERT 监督的音频到音素的编码器结合 f0 特征LID
人工智能·音视频·语音识别
WADesk---瓜子2 小时前
用 AI 自动生成口型同步视频,短视频内容也能一人完成
人工智能·音视频·语音识别·流量运营·用户运营
星环科技TDH社区版3 小时前
AI Agent 的 10 种应用场景:物联网、RAG 与灾难响应
人工智能·物联网