【AI绘画】Alpha-VLLM 的 Lumina-Next:新一代图像生成器

简介

Lumina-Next-T2I 是在 Lumina-T2I 成功基础上发展起来的尖端图像生成模型。它采用了带有 2B 参数模型的 Next-DiT 和 Gemma-2B 文本编码器,推理速度更快,生成样式更丰富,并增强了多语言支持。

模型架构

Lumina-Next-T2I 的生成模型建立在 Next-DiT 骨干之上,文本编码器是 Gemma 2B 模型,而 VAE 则使用由 stabilityai 微调的 sdxl 版本。

  • 生成模型: Next-DiT
  • 文本编码器 Gemma-2B
  • VAE: sdxl-vae

新闻和更新

  • 2024 年 5 月 12 日,Lumina-Next-T2I 型号发布,为图像生成提供了更快更低的内存使用率。

安装

  1. 创建 conda 环境并安装 PyTorch 注意:您可能需要根据驱动程序版本调整 CUDA 版本
bash 复制代码
conda create -n Lumina_T2X -y
	conda activate Lumina_T2X
	conda install python=3.11 pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia -y
  1. 安装依赖
bash 复制代码
pip install diffusers huggingface_hub
pip install flash-attn --no-build-isolation
  1. Diffusers推理
bash 复制代码
from diffusers import LuminaText2ImgPipeline
import torch

pipeline = LuminaText2ImgPipeline.from_pretrained("/path/to/ckpt/Lumina-Next-SFT-diffusers", torch_dtype=torch.bfloat16).to("cuda")

# or you can download the model using code directly
# pipeline = LuminaText2ImgPipeline.from_pretrained("Alpha-VLLM/Lumina-Next-SFT-diffusers", torch_dtype=torch.bfloat16).to("cuda")

image = pipeline(prompt="Upper body of a young woman in a Victorian-era outfit with brass goggles and leather straps. "
                        "Background shows an industrial revolution cityscape with smoky skies and tall, metal structures").images[0]

鉴赏效果

A winter landscape with a frozen lake, snow-covered pine trees, and a small cabin with smoke coming out of the chimney.

An astronaut standing on a moonlit alien planet, with purple mountains and two large moons in the sky.

A rustic farmhouse kitchen with a wooden table, a bowl of fresh apples, and a cat curled up on a chair.

This is the Lumina output, and I wanted to show it because it was cartoony

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。点赞并关注,获取最新科技动态,不落伍!🤗🤗🤗

相关推荐
永霖光电_UVLED1 分钟前
CEA-Leti 和 CEA-List 已宣布与 Powerchip 半导体制造公司 (PSMC) 合作
人工智能·生成对抗网络·汽车·制造·激光
ai产品老杨2 分钟前
异构计算时代的安防底座:基于 x86/ARM 双架构与多芯片适配的 AI 视频云平台架构解析
arm开发·人工智能·架构
JustNow_Man2 分钟前
【opencode】使用方法
linux·服务器·网络·人工智能·python
lvyuanj3 分钟前
Java AI开发实战:Spring AI完全指南
java·人工智能·spring
l1t3 分钟前
DeepSeek总结的如何构建 AI 仪表盘
人工智能·信息可视化
AI医影跨模态组学4 分钟前
Radiother Oncol 山东第一医科大学:基于多组学模型预测非小细胞肺癌患者放化疗后预后的多中心研究
人工智能·机器学习·论文·医学·医学影像
whhzhai6 分钟前
AI Agent - 智能旅行助手和深度研究助手实践
人工智能·agent
AI自动化工坊7 分钟前
Meta Muse Spark技术深度解析:原生多模态推理架构实践指南
大数据·人工智能·架构·spark
动物园猫12 分钟前
电缆损坏目标检测数据集分享(YOLO系列)| 电缆断裂 雷击损伤 断股 烧蚀痕迹 输电线路巡检 目标检测标注
人工智能·yolo·目标检测
贵州晓智信息科技12 分钟前
NumPy 从数组操作理解深度学习的计算本质
人工智能·深度学习·numpy