lora体验 - 技术栈

lora体验

海滩游侠2024-05-12 15:31

现在如果想体验stable diffusion的lora功能，有很多种渠道吧，虽然lora是微软开源，但是cloneofsimo提供了适配stable diffusion的lora流程。

我准备了20张葫芦娃的图片用于微调，没有什么特别操作。

微调耗时很短，10分钟？

Code Review

代码基于cli_lora_pti.py 执行，针对输入的关键词，我们生成对应的token id. 其实就是建立embedding的映射了。

这里有点不理解的是，initialize_token_ids, place_token_ids的作用不太理解。。。

接下来，进入

复制代码

PivotalTuningDatasetCapation

它的作用就是构建数据集。

接下来，还有inpaint的训练选项，这是一个我很感兴趣的功能。我们可以选择是使用inpainting_dataloader还是text2img_dataloader 加载数据

然后，我们设定require_grad为false。

复制代码

   unet.requires_grad_(False)
    vae.requires_grad_(False)

接下来，我们可以选择是否进行inversion，如果选择训练inversion，我们会对于text encoder进行训练，

接下来，我们可以选择利用lora进行训练,这里可以选择是否使用extended lora进行训练，

然后，我们可以inspect_lora(什么意思呢？

最后，我们又一次进行tuning，对象为text_encoder和unet。并进行保存！我认为这个代码结构非常的清晰简洁，值得多看！

看什么呢？

有几个问题需要再梳理清楚