Video-T1:视频生成实时手术刀!清华腾讯「帧树算法」终结闪烁抖动

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎥 「别让AI视频像PPT!清华黑科技让每秒都是电影级」

大家好,我是蚝油菜花。这些视频生成的暴击现场你是否经历过------

  • 👉 用AI生成产品演示视频,物体抽搐得像跳机械舞
  • 👉 精心写的提示词,结果主角跑到第三帧就人间蒸发
  • 👉 4K视频导出像打了马赛克,甲方问「这是诺基亚拍的?」...

今天要颠覆影视圈的 Video-T1 ,正在重写生成规则!清华×腾讯这剂猛药:

  • ✅ 「帧树手术」:像剪辑师逐帧精修,闪烁抖动直接物理阉割
  • ✅ 提示词骨钉术:动态调整提示确保每个画面都忠诚剧本
  • ✅ 实时画质透析:生成时自动追加算力,4K细节堪比毛孔显微镜

已有团队用它量产TVC广告,短剧导演靠AI生成电影长镜头------你的视频生产线,是时候安装「清华牌涡轮增压器」了!

🚀 快速阅读

Video-T1是清华大学与腾讯联合开发的视频生成优化技术。

  1. 核心功能:通过测试阶段动态计算提升视频质量,实现文本到视频的高精度匹配
  2. 技术原理:采用Tree-of-Frames方法分阶段优化帧序列,结合验证器反馈进行自回归扩展与剪枝

Video-T1 是什么

Video-T1 是清华大学和腾讯的研究人员共同推出的视频生成技术,基于测试时扩展(Test-Time Scaling,TTS)提升视频生成的质量和一致性。传统视频生成模型在训练后直接生成视频,Video-T1 在测试阶段引入额外计算资源,基于动态调整生成路径优化视频质量。

研究推出 Tree-of-Frames (ToF) 方法,将视频生成分为多个阶段,逐步优化帧的连贯性和与文本提示的匹配度。Video-T1 为视频生成领域提供新的优化思路,展示测试时扩展的强大潜力。

Video-T1 的主要功能

  • 提升视频质量:在测试阶段增加计算资源,生成更高质量的视频,减少模糊和噪声
  • 增强文本一致性:确保生成的视频符合给定的文本提示,提高视频与文本的匹配度
  • 优化视频连贯性:改善视频帧之间的运动平滑性和时间连贯性,减少闪烁和抖动
  • 适应复杂场景:在处理复杂场景和动态对象时,生成更稳定和真实的视频内容

Video-T1 的技术原理

  • 搜索空间构建:基于测试时验证器(verifiers)提供反馈,结合启发式算法指导搜索过程
  • 随机线性搜索:在推理时增加噪声候选样本,逐步去噪生成视频片段,选择验证器评分最高的结果
  • Tree-of-Frames(ToF)方法
    • 图像级对齐:初始帧的生成影响后续帧
    • 动态提示应用:在测试验证器中动态调整提示,关注运动稳定性和物理合理性
    • 整体质量评估:评估视频的整体质量,选择与文本提示最匹配的视频
  • 自回归扩展与剪枝:基于自回归方式动态扩展和剪枝视频分支,提高生成效率

如何运行 Video-T1

🔧 安装

依赖环境:

bash 复制代码
git clone https://github.com/liuff19/Video-T1.git
cd VideoT1
conda create -n videot1 python==3.10
conda activate videot1
pip install -r requirements.txt
git clone https://github.com/LLaVA-VL/LLaVA-NeXT && cd LLaVA-NeXT && pip install --no-deps -e ".[train]"

💻 推理

1. 快速开始

bash 复制代码
cd VideoT1
python -m videot1.py --prompt "A cat wearing sunglasses and working as a lifeguard at a pool." --video_name cat_lifeguard

2. 多GPU推理

bash 复制代码
python videot1_multigpu.py --prompt "A cat wearing sunglasses and working as a lifeguard at a pool." --video_name cat_lifeguard --reward_device_id 0 --base_device_id 1 --imgcot_device_id 2 --lm_device_id 3

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关推荐
高工智能汽车7 分钟前
出圈or出局?AI汽车“急速驶来”,市场淘汰赛一触即发
人工智能·汽车
Qdgr_9 分钟前
传统报警难题频现,安全运行隐患重重
大数据·人工智能·安全
rit843249914 分钟前
MATLAB基于voronoi生成三维圆柱形
开发语言·人工智能·matlab
xuedaobian25 分钟前
AI IDE里的 context 工程
人工智能·aigc·visual studio code
PyAIExplorer1 小时前
图像处理中的霍夫变换:直线检测与圆检测
图像处理·人工智能
格林威1 小时前
Baumer工业相机堡盟工业相机如何通过DeepOCR模型识别判断数值和字符串的范围和相似度(C#)
开发语言·人工智能·python·数码相机·计算机视觉·c#·视觉检测
不爱学英文的码字机器1 小时前
Claude Code: Best practices for agentic coding
人工智能
GateWorld2 小时前
RISC-V:开源芯浪潮下的技术突围与职业新赛道 (一)为什么RISC-V是颠覆性创新?
开源·risc-v
代码老y2 小时前
数据挖掘:从理论到实践的深度探索
人工智能·数据挖掘
OpenAnolis小助手2 小时前
Anolis OS 23 架构支持家族新成员:Anolis OS 23.3 版本及 RISC-V 预览版发布
开源·操作系统·龙蜥社区·risc-v·anolis os·龙蜥操作系统