视频超分(VSR)论文阅读记录/idea积累(一)

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

关键词:

text-to-video (T2V)

Local Information Enhancement Module (LIEM)

Dynamic Frequency (DF)

引言:

VSR: 传统VSR分两大类recurrent-based和sliding-window-based

T2V: U-Net based 和 Dit based ( CogVid)

PASD [61] and SeeSR [57] 在U-Net中嵌入语义信息引导diffusion

保真度可分为两种类型:1)低频保真度,包括大型结构和实例。2)高频保真度,包括边缘和纹理,符合去噪过程的特性。

sliding-window-based

创新:

  1. 引入Spatio-Temporal quality Augmentation framework, the first to integrate diverse, powerful

text-to-video diffusion priors into real-world VSR, 空间细节和时间一致性, 主要通过两个loss来实现的(LIEM loss 和 DF loss)

  1. 引入局部信息增强模块, 引入Dynamic Frequency loss学习diffusion steps中的特定信息, 解耦

fidelity 和提升最终fidelity.

实现:

框架(按照经验来说, 该框架起主要作用的是ControlNet)

Loss设计:

Local Information Enhancement Module (LIEM)的实现:

Dynamic Frequency (DF) Loss 的实现:

相关推荐
珠海西格电力4 小时前
零碳园区有哪些政策支持?
大数据·数据库·人工智能·物联网·能源
启途AI4 小时前
2026免费好用的AIPPT工具榜:智能演示文稿制作新纪元
人工智能·powerpoint·ppt
TH_14 小时前
35、AI自动化技术与职业变革探讨
运维·人工智能·自动化
楚来客4 小时前
AI基础概念之八:Transformer算法通俗解析
人工智能·算法·transformer
风送雨4 小时前
FastMCP 2.0 服务端开发教学文档(下)
服务器·前端·网络·人工智能·python·ai
效率客栈老秦5 小时前
Python Trae提示词开发实战(8):数据采集与清洗一体化方案让效率提升10倍
人工智能·python·ai·提示词·trae
小和尚同志5 小时前
虽然 V0 很强大,但是ScreenshotToCode 依旧有市场
人工智能·aigc
HyperAI超神经5 小时前
【vLLM 学习】Rlhf
人工智能·深度学习·学习·机器学习·vllm
芯盾时代5 小时前
石油化工行业网络风险解决方案
网络·人工智能·信息安全
线束线缆组件品替网5 小时前
Weidmüller 工业以太网线缆技术与兼容策略解析
网络·人工智能·电脑·硬件工程·材料工程