[大语言模型] LINFUSION:1个GPU,1分钟,16K图像

  1. 文章

2409.02097 (arxiv.org)https://arxiv.org/pdf/2409.02097

LINFUSION: 1 GPU, 1 MINUTE, 16K IMAGE

摘要

本文介绍了一种新型的扩散模型LINFUSION,它能够在保持高分辨率图像生成性能的同时显著降低时间和内存复杂度。该模型采用了基于Transformer的UNet进行去噪,并且通过引入线性注意力机制替代了传统的自注意力操作,以解决高分辨率视觉内容生成中的挑战。研究者们从最近引入的具有线性复杂度的模型中获得灵感,提出了一种新的线性注意力范式,该范式可作为多种流行的线性令牌混合器的低秩近似。通过从预训练的StableDiffusion (SD)模型中初始化并进行知识蒸馏,LINFUSION在适度训练后即可达到或超过原始SD的性能,同时显著减少时间和内存复杂度。实验表明,LINFUSION能够生成高达16K分辨率的高分辨率图像,并且与预训练的SD组件(如ControlNet和IP-Adapter)高度兼容。

创新点

  1. 提出了一种新的线性注意力机制,作为传统自注意力方法的替代,以解决高分辨率图像生成中的时间和内存复杂度问题。
  2. 引入了注意力归一化和非因果推理两个关键特性,以增强高分辨率视觉生成性能。
  3. 通过知识蒸馏的方式,从预训练的StableDiffusion模型中初始化并优化LINFUSION,减少了训练成本并提高了与现有模型的兼容性。

算法模型

LINFUSION模型基于Stable Diffusion (SD),通过以下关键技术构建:

  • 线性注意力机制 :替代SD中的自注意力层,以线性复杂度处理空间令牌。

  • 注意力归一化 :确保不同输入规模下的总影响保持一致。

  • 非因果推理 :允许模型同时访问所有噪声空间令牌并基于整个输入生成去噪令牌。

  • 知识蒸馏:从预训练的SD模型中转移知识,以优化LINFUSION模型。

实验效果

  • 生成速度和内存消耗:在8步去噪和单GPU情况下,与原始SD-v1.5相比,LINFUSION在不同分辨率下的生成速度更快,内存消耗更低。
  • 跨分辨率生成性能:在SD-v1.5、SD-v2.1和SD-XL上的实验表明,LINFUSION在零样本跨分辨率生成性能上令人满意,能够生成高达16K分辨率的图像。
  • 与预训练组件的兼容性:LINFUSION与SD的现有组件(如ControlNet和IP-Adapter)高度兼容,无需额外训练成本。
相关推荐
独隅几秒前
PyTorch 的全面介绍
人工智能·pytorch·python
ai产品老杨1 分钟前
终结碎片化:基于GB28181/RTSP协议网关与边缘协同的企业级AI视频平台架构深度解析(附源码交付)
人工智能·架构·音视频
小陈工1 分钟前
Python后端实战:GraphQL高级应用与性能优化全解析
开发语言·人工智能·后端·python·性能优化·开源·graphql
badhope5 分钟前
10个GitHub高星开源项目推荐
大数据·人工智能·深度学习·数据挖掘·github
云边云科技_云网融合6 分钟前
今天,我们来聊一聊 AI WAN
人工智能·安全·云计算
北京软秦科技有限公司8 分钟前
AI报告文档审核重构制药行业质量监管体系:IACheck驱动智慧管控与合规能力全面升级
大数据·人工智能·重构
EasyGBS8 分钟前
实战落地:国标GB28181视频平台EasyGBS+国密GB35114协议,双重保障赋能智慧安防全场景安全高效联网
人工智能·安全·音视频
阿部多瑞 ABU9 分钟前
AI红队安全报告:ADRO框架与长周期渐进式诱导攻击的实证研究
人工智能·安全
格林威10 分钟前
工业相机图像采集处理:从 RAW 数据到 AI 可读图像,附海康相机 C++实战代码
开发语言·c++·人工智能·数码相机·计算机视觉·c#·工业相机
寰宇视讯10 分钟前
日内瓦金奖!镓未来双向 GaN 器件携手合工大,助力 OBC 集成度提升 53%!
人工智能·神经网络·生成对抗网络