机器学习周报二十七

文章目录

    • 摘要
    • Abstract
      • [1.Acquire and then Adapt:Squeezing out Text-to-Image Model for Image Restoration](#1.Acquire and then Adapt:Squeezing out Text-to-Image Model for Image Restoration)
      • [2.Adapting Text-to-Image Generation with Feature Difference Instruction for Generic Image Restoration](#2.Adapting Text-to-Image Generation with Feature Difference Instruction for Generic Image Restoration)
    • 总结

摘要

本周主要工作是阅读了两篇T2I方向的论文,理清风格迁移和图像重建之间的联系和区别,对应的问题采用对应的解法。

Abstract

The main work this week was reading two papers in the T2I direction, clarifying the connections and differences between style transfer and image reconstruction, and applying corresponding solutions to the respective problems.

1.Acquire and then Adapt:Squeezing out Text-to-Image Model for Image Restoration

第一篇论文作者是Juanyuan Deng等人,来自深圳大学和荣耀公司。

生成模型:使用强大的文本到图像模型 Flux(一个 120 亿参数的大规模扩散模型),通过输入空提示(empty prompt) 和随机噪声,生成大量高质量、高分辨率的图像。

图像筛选:利用无参考图像质量评估模型(如 CLIP-IQA、MANIQA、MUSIQ)对生成的图像进行筛选,保留质量最高的 95% 作为训练集。

退化模拟:使用已有的退化合成方法(如 Real-ESRGAN 中使用的退化模型)对高质量图像进行退化处理,构建"低质量-高质量"图像对用于训练。

输入空文本提示和随机高斯噪声到FluxGen,通过Flux(使用MM-DiT、Clip和T5编码器)进行去噪,得到去噪图像的隐变量𝑧_0;

然后由Flux-VAE Decoder解码隐变量得到生成的图片,再通过IQA筛选出高质量图像;

对得到的高质量图像进行人工退化,得到低质量图像,由Flux-VAE Encoder编码成隐变量。

通过FluxGen得到的 𝑧 0 𝑧_0 z0和 𝑧 𝑙 𝑞 𝑧_{𝑙𝑞} zlq,同时CLIP和T5对提示编码得到Font metrics not found for font: .和Font metrics not found for font: .,然后通过MM-DiT模块,会得到图像和文本的注意力。FluxGen冻结Flux主干用于生成训练数据(低质量-高质量)图像对。FluxIR轻量级的适配器,把低质量的图像信息作为一种控制信息,输入到Flux的每个Dit,指导Flux的生成。

最后是实验的结果,从结果可以看出,模型在RealQ250数据集下,全面超越了最强的SeeSR模型。

2.Adapting Text-to-Image Generation with Feature Difference Instruction for Generic Image Restoration

第二篇论文作者是Chao Wang等人,来自浙江大学和新南威尔士大学。

.

传统方法的局限性:传统图像修复方法通常针对单一的、预定义的退化类型(如去雨、去雾、去雪、低光增强等),缺乏对混合退化(例如一张图中同时有雨、雾、低光)的处理能力。

现有All-in-One方法的不足:虽然已有一些All-in-One网络能够处理多种退化,但它们往往需要为每种退化类型单独训练模型,或者在处理混合退化时效果不佳。

依赖复杂训练与提示设计:现有基于扩散模型的文本到图像(T2I)方法在图像修复中仍面临训练复杂、提示设计困难的问题。

利用预训练的多模态视觉语言模型(如BLIP-2)提取特征差异指令(Feature Difference Instruction, FDI),作为退化感知的修复指导。

通过轻量化的FDI适配器(adapter) 将FDI注入到预训练的扩散模型中,实现无需重新训练整个模型的高效图像修复。

支持混合退化修复,并能灵活组合多种任务专用适配器,实现合成修复或渐进修复。

使用退化数据集和清晰数据集经过BLIP-2模型得到FDI向量,包含着由于下雨、大雾等原因导致图片退化,然后FDI输入预训练的LLM,证明FDI具有可解释性,同时结合退化图片输入到DiffRes模型进行训练得到重建图片。

接住Unet提取到特征,然后通过交叉注意力得到去噪模型每一步需要的控制信号 𝐴 𝑠 𝑖 𝐴_𝑠^𝑖 Asi,去噪模型根据这个信号去重建图片。

总结

上周的工作是风格迁移,将一张图像的"风格"(如笔触、颜色分布、纹理)迁移到另一张图像的"内容"上,不改变语义结构,图片中该有的内容大致都在。图像重建则是不一样的,根据语义指令修改图像内容本身,包括形状、结构、对象属性等。例如:"让天空更蓝"、"移除背景中的人"、"增大细胞核"。比如第一篇论文的生成full 4k picture,第二篇的去雾,去噪,让图片更清晰。

相关推荐
诗远Yolanda2 小时前
【EI检索会议】第二届国际人工智能创新研讨会(IS-AII 2026)
图像处理·人工智能·深度学习·机器学习·计算机视觉·机器人
deephub3 小时前
Scikit-Learn 1.8引入 Array API,支持 PyTorch 与 CuPy 张量的原生 GPU 加速
人工智能·pytorch·python·机器学习·scikit-learn
free-elcmacom3 小时前
机器学习高阶教程<11>当数据开始“折叠”:流形学习与深度神经网络如何发现世界的隐藏维度
人工智能·python·神经网络·学习·算法·机器学习·dnn
阿杰学AI3 小时前
AI核心知识61——大语言模型之Embedding (简洁且通俗易懂版)
人工智能·机器学习·ai·语言模型·自然语言处理·embedding·词向量
Master_oid3 小时前
机器学习26:增强式学习(Deep Reinforcement Learn)①
人工智能·学习·机器学习
鲨莎分不晴3 小时前
从 0 实现一个 Offline RL 算法 (以 IQL 为例)
人工智能·深度学习·机器学习
free-elcmacom4 小时前
机器学习高阶教程<9>从实验室到生产线:机器学习模型推理与部署优化实战指南
人工智能·python·机器学习
Felaim4 小时前
【自动驾驶】RAD 要点总结(地平线)
人工智能·机器学习·自动驾驶
Pyeako4 小时前
机器学习--逻辑回归相关案例
人工智能·python·机器学习·逻辑回归·下采样·交叉验证·过采样