视频超分(VSR)论文阅读记录/idea积累(一)

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

关键词:

text-to-video (T2V)

Local Information Enhancement Module (LIEM)

Dynamic Frequency (DF)

引言:

VSR: 传统VSR分两大类recurrent-based和sliding-window-based

T2V: U-Net based 和 Dit based ( CogVid)

PASD [61] and SeeSR [57] 在U-Net中嵌入语义信息引导diffusion

保真度可分为两种类型:1)低频保真度,包括大型结构和实例。2)高频保真度,包括边缘和纹理,符合去噪过程的特性。

sliding-window-based

创新:

  1. 引入Spatio-Temporal quality Augmentation framework, the first to integrate diverse, powerful

text-to-video diffusion priors into real-world VSR, 空间细节和时间一致性, 主要通过两个loss来实现的(LIEM loss 和 DF loss)

  1. 引入局部信息增强模块, 引入Dynamic Frequency loss学习diffusion steps中的特定信息, 解耦

fidelity 和提升最终fidelity.

实现:

框架(按照经验来说, 该框架起主要作用的是ControlNet)

Loss设计:

Local Information Enhancement Module (LIEM)的实现:

Dynamic Frequency (DF) Loss 的实现:

相关推荐
一战成名9963 小时前
CANN 仓库揭秘:昇腾 AI 算子开发的宝藏之地
人工智能
hnult3 小时前
2026 在线培训考试系统选型指南:核心功能拆解与选型逻辑
人工智能·笔记·课程设计
A小码哥3 小时前
AI 设计时代的到来:从 PS 到 Pencil,一个人如何顶替一个团队
人工智能
AIGCmitutu4 小时前
PS 物体底部阴影怎么做?3 步做出自然逼真的投影效果
人工智能·电子商务·photoshop·ps·美工
开源技术4 小时前
Claude Opus 4.6 发布,100万上下文窗口,越贵越好用
人工智能·python
聆风吟º4 小时前
CANN hccl 深度解析:异构计算集群通信库的跨节点通信与资源管控实现逻辑
人工智能·wpf·transformer·cann
狸奴算君4 小时前
告别机械回复:三步微调AI模型,打造会“读心”的智能客服
人工智能
七夜zippoe4 小时前
脉向AI|当豆包手机遭遇“全网封杀“:GUI Agent是通向AGI的必经之路吗?
人工智能·ai·智能手机·agent·gui
木非哲4 小时前
机器学习--随机森林--从一棵树的直觉到一片林的哲学
人工智能·随机森林·机器学习
神的泪水4 小时前
CANN 系列底层篇:基于 shmem 实现 NPU 设备内存的高效共享
人工智能