Datawhale X 魔搭 AI夏令营（2024第四期）AIGC方向学习笔记

最上川2024-08-12 19:02

粗谈

这一期是使用可图+lora微调进行文生图任务的比赛

文生图也算是跨模态了，输入Prompt文本，输出图片。Prompt很重要，分为prompts和negative prompts。可以指导结果图片的生成。

lora可以参考我上期夏令营的文章:Datawhale AI 夏令营（2024第三期）AI+逻辑推理方向模型微调学习笔记。在文生图的这个使用场景下，使用LoRA调整模型参数以实现对特定主题、风格或任务的精细化控制。

Confy UI是一个可视化工具，允许模型训练者以一个流程图的形式，进行数据预处理、模型微调、图像生成。很方便，不过目前我还没有搭建起来。

参考图控制是一种根据某种参考图指导模型生成图片样式的方式。如下图。是基于扩散模型，对初始随机噪点扩散到完整图片的方式。

稍微看了下代码，流程还是下载模型和数据集、数据预处理、lora微调、图片生成。代码里通过torch.manual_seed(seed)方便我们复现此次图片生成。

下面是我调出来的图片。剧情是用moonshot生成的，大概就是一个邮递员的梦游历险记，意外获得地图->历尽艰辛->获得巫师认可，被赐予贵重的项链->原来只是个梦，但桌上确实有那个项链。