媲美Midjourney-v6,Kolors最新文生图模型部署

Kolors模型是由快手团队开发的大型文本到图像生成模型,专门用于将文本描述转换成高质量的图像。

Kolors模型支持中英文双语输入,生成效果与Midjourney-v6相媲美,能够处理长达256个字符的文本输入,具备生成中英文文字的能力。

Kolors模型的技术优势在于其使用了基于U-Net架构的隐空间扩散模型,并引入了大语言模型进行文本表征,这使得它在处理复杂长文本方面表现出色。

Kolors模型在图像美感和质量上达到了国际领先水平,这得益于其两阶段的概念学习和美感提升的渐进训练策略以及针对高分辨率图像特性优化的全新加噪策略。

在评测方面,Kolors模型在智源FlagEval文生图模型评测榜单中主观综合评分全球第二,尤其在主观图像质量上表现突出,评分排名第一。

github项目地址:https://github.com/Kwai-Kolors/Kolors。

一、环境安装

1、python环境

建议安装python版本在3.8以上。

2、pip库安装

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install pydantic==1.10.2 protobuf==3.20 tensorboard>=1.15.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

3、Kolors模型下载

git lfs install

git clone https://huggingface.co/Kwai-Kolors/Kolors.git

二**、功能测试**

1、运行测试

(1)python调用测试

复制代码
import torch
from kolors.pipelines.pipeline_stable_diffusion_xl_chatglm_256 import StableDiffusionXLPipeline
from kolors.models.modeling_chatglm import ChatGLMModel
from kolors.models.tokenization_chatglm import ChatGLMTokenizer
from diffusers import UNet2DConditionModel, AutoencoderKL
from diffusers import EulerDiscreteScheduler

# 定义模型权重路径
ckpt_dir = 'Kolors'

def infer(prompt):
    # 加载文本编码器模型
    text_encoder = ChatGLMModel.from_pretrained(
        f'{ckpt_dir}/text_encoder',
        torch_dtype=torch.float16
    ).half()
    
    # 加载分词器
    tokenizer = ChatGLMTokenizer.from_pretrained(f'{ckpt_dir}/text_encoder')
    
    # 加载图片解码器 VAE
    vae = AutoencoderKL.from_pretrained(f"{ckpt_dir}/vae", revision=None).half()
    
    # 加载调度器用于生成步骤
    scheduler = EulerDiscreteScheduler.from_pretrained(f"{ckpt_dir}/scheduler")
    
    # 加载 U-Net 模型
    unet = UNet2DConditionModel.from_pretrained(f"{ckpt_dir}/unet", revision=None).half()
    
    # 设置图像生成管道
    pipe = StableDiffusionXLPipeline(
        vae=vae,
        text_encoder=text_encoder,
        tokenizer=tokenizer,
        unet=unet,
        scheduler=scheduler,
        force_zeros_for_empty_prompt=False
    )
    
    # 将管道模型移至 GPU
    pipe = pipe.to("cuda")
    
    # 启用模型 CPU 卸载功能
    pipe.enable_model_cpu_offload()
    
    # 生成图像
    image = pipe(
        prompt=prompt,
        height=1024,                # 图像高度
        width=1024,                 # 图像宽度
        num_inference_steps=50,     # 推理步数
        guidance_scale=5.0,         # 指导比例
        num_images_per_prompt=1,    # 每个提示生成的图像数量
        generator=torch.Generator(pipe.device).manual_seed(66)  # 随机种子
    ).images[0]
    
    # 保存生成的图像
    output_path = 'scripts/outputs/sample_test.jpg'
    image.save(output_path)
    print(f"图像已保存至:{output_path}")

if __name__ == '__main__':
    # 定义生成图像的提示
    prompt = '一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着"good"'
    infer(prompt)

(2)web端测试

未完......

更多详细的内容欢迎关注:杰哥新技术

相关推荐
他们叫我技术总监11 分钟前
从开发者视角深度评测:ModelEngine 与 AI 开发平台的技术博弈
java·人工智能·dubbo·智能体·modelengine
minhuan12 分钟前
构建AI智能体:八十三、当AI开始“失忆“:深入理解和预防模型衰老与数据漂移
人工智能·模型衰老·数据偏移·psi群体稳定性指标·ks统计量检验
AI浩13 分钟前
深入级联不稳定性:从 Lipschitz 连续性视角探讨图像恢复与目标检测的协同作用
人工智能·目标检测·php
笨鸟笃行14 分钟前
人工智能备考——大体题型讲解+1.1.1-1.1.5固定搭配总结
人工智能
大千AI助手15 分钟前
差分隐私随机梯度下降(DP-SGD)详解
人工智能·神经网络·差分隐私·sgd·大千ai助手·dp-sgd·差分隐私随机梯度下降
十三画者22 分钟前
【文献分享】DARKIN:基于蛋白质语言模型的零样本磷酸化位点与暗激酶关联基准测试
人工智能·语言模型·自然语言处理
执笔论英雄34 分钟前
【大模型训练】zero 学习及deepseed实战
人工智能·深度学习·学习
大千AI助手42 分钟前
分布式奇异值分解(SVD)详解
人工智能·分布式·spark·奇异值分解·svd·矩阵分解·分布式svd
AgeClub1 小时前
当“钢铁护工”进入家庭,Figure 03如何重建老年居家生活?
大数据·人工智能
RWKV元始智能1 小时前
RWKV7-G0a3 13.3B 发布:世界最强纯 RNN 大语言模型
人工智能·机器学习·开源