视频超分(VSR)论文阅读记录/idea积累(一)

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

关键词:

text-to-video (T2V)

Local Information Enhancement Module (LIEM)

Dynamic Frequency (DF)

引言:

VSR: 传统VSR分两大类recurrent-based和sliding-window-based

T2V: U-Net based 和 Dit based ( CogVid)

PASD [61] and SeeSR [57] 在U-Net中嵌入语义信息引导diffusion

保真度可分为两种类型:1)低频保真度,包括大型结构和实例。2)高频保真度,包括边缘和纹理,符合去噪过程的特性。

sliding-window-based

创新:

  1. 引入Spatio-Temporal quality Augmentation framework, the first to integrate diverse, powerful

text-to-video diffusion priors into real-world VSR, 空间细节和时间一致性, 主要通过两个loss来实现的(LIEM loss 和 DF loss)

  1. 引入局部信息增强模块, 引入Dynamic Frequency loss学习diffusion steps中的特定信息, 解耦

fidelity 和提升最终fidelity.

实现:

框架(按照经验来说, 该框架起主要作用的是ControlNet)

Loss设计:

Local Information Enhancement Module (LIEM)的实现:

Dynamic Frequency (DF) Loss 的实现:

相关推荐
超龄超能程序猿38 分钟前
(三)PS识别:基于噪声分析PS识别的技术实现
图像处理·人工智能·计算机视觉
要努力啊啊啊40 分钟前
YOLOv3-SPP Auto-Anchor 聚类调试指南!
人工智能·深度学习·yolo·目标检测·目标跟踪·数据挖掘
好开心啊没烦恼43 分钟前
Python 数据分析:numpy,说人话,说说数组维度。听故事学知识点怎么这么容易?
开发语言·人工智能·python·数据挖掘·数据分析·numpy
生态遥感监测笔记1 小时前
GEE利用已有土地利用数据选取样本点并进行分类
人工智能·算法·机器学习·分类·数据挖掘
天天扭码1 小时前
从图片到语音:我是如何用两大模型API打造沉浸式英语学习工具的
前端·人工智能·github
张彦峰ZYF2 小时前
从检索到生成:RAG 如何重构大模型的知识边界?
人工智能·ai·aigc
刘海东刘海东2 小时前
结构型智能科技的关键可行性——信息型智能向结构型智能的转变(修改提纲)
人工智能·算法·机器学习
**梯度已爆炸**2 小时前
NLP文本预处理
人工智能·深度学习·nlp
uncle_ll2 小时前
李宏毅NLP-8-语音模型
人工智能·自然语言处理·语音识别·语音模型·lm
Liudef062 小时前
FLUX.1-Kontext 高效训练 LoRA:释放大语言模型定制化潜能的完整指南
人工智能·语言模型·自然语言处理·ai作画·aigc