视频超分(VSR)论文阅读记录/idea积累(一)

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

关键词:

text-to-video (T2V)

Local Information Enhancement Module (LIEM)

Dynamic Frequency (DF)

引言:

VSR: 传统VSR分两大类recurrent-based和sliding-window-based

T2V: U-Net based 和 Dit based ( CogVid)

PASD [61] and SeeSR [57] 在U-Net中嵌入语义信息引导diffusion

保真度可分为两种类型:1)低频保真度,包括大型结构和实例。2)高频保真度,包括边缘和纹理,符合去噪过程的特性。

sliding-window-based

创新:

  1. 引入Spatio-Temporal quality Augmentation framework, the first to integrate diverse, powerful

text-to-video diffusion priors into real-world VSR, 空间细节和时间一致性, 主要通过两个loss来实现的(LIEM loss 和 DF loss)

  1. 引入局部信息增强模块, 引入Dynamic Frequency loss学习diffusion steps中的特定信息, 解耦

fidelity 和提升最终fidelity.

实现:

框架(按照经验来说, 该框架起主要作用的是ControlNet)

Loss设计:

Local Information Enhancement Module (LIEM)的实现:

Dynamic Frequency (DF) Loss 的实现:

相关推荐
学习的周周啊33 分钟前
一人AI自动化开发体系(Cursor 驱动):从需求到上线的全流程闭环与实战清单
运维·人工智能·自动化·ai编程·全栈·devops·cursor
后端小肥肠44 分钟前
明星漫画总画不像?用 Coze +即梦 4 工作流,素描风漫画3分钟搞定,小白也能上手
人工智能·aigc·coze
flay1 小时前
5个Claude实战项目从0到1:自动化、客服机器人、代码审查
人工智能
flay1 小时前
Claude API完全指南:从入门到实战
人工智能
用户5191495848451 小时前
OAuth/OpenID Connect安全测试全指南
人工智能·aigc
初级炼丹师(爱说实话版)1 小时前
PGLRNet论文笔记
人工智能·深度学习·计算机视觉
明月照山海-1 小时前
机器学习周报十七
人工智能·机器学习
flay2 小时前
Claude进阶秘籍:10个高级技巧让效率翻倍
人工智能
猫头虎2 小时前
Paper2Agent:将科研论文转化为可交互的AI智能体工具项目
人工智能·prompt·aigc·交互·pip·agi·ai-native
喜欢吃豆2 小时前
微调高级推理大模型(COT)的综合指南:从理论到实践
人工智能·python·语言模型·大模型·微调·强化学习·推理模型