Datawhale X 魔搭 AI夏令营(2024第四期)AIGC方向 学习笔记

粗谈

这一期是使用可图+lora微调进行文生图任务的比赛

文生图也算是跨模态了,输入Prompt文本,输出图片。Prompt很重要,分为prompts和negative prompts。可以指导结果图片的生成。

lora可以参考我上期夏令营的文章:Datawhale AI 夏令营(2024第三期)AI+逻辑推理方向 模型微调学习笔记。在文生图的这个使用场景下,使用LoRA调整模型参数以实现对特定主题、风格或任务的精细化控制。

Confy UI是一个可视化工具,允许模型训练者以一个流程图的形式,进行数据预处理、模型微调、图像生成。很方便,不过目前我还没有搭建起来。

参考图控制是一种根据某种参考图指导模型生成图片样式的方式。如下图。是基于扩散模型,对初始随机噪点扩散到完整图片的方式。

baseline

稍微看了下代码,流程还是下载模型和数据集、数据预处理、lora微调、图片生成。代码里通过torch.manual_seed(seed)方便我们复现此次图片生成。

下面是我调出来的图片。剧情是用moonshot生成的,大概就是一个邮递员的梦游历险记,意外获得地图->历尽艰辛->获得巫师认可,被赐予贵重的项链->原来只是个梦,但桌上确实有那个项链。







TODO

  • 使用更适合自己想法的训练集,微调模型能力
  • 学习prompt是怎么指导模型生成的
  • 看能不能搭下Confy UI
相关推荐
嘿黑嘿呦2 分钟前
深度学习Note.5(机器学习2)
人工智能·深度学习·机器学习
b***25115 分钟前
磷酸铁锂电池自动分选机:新能源产业的智能新宠
大数据·人工智能
落笔太慌张~13 分钟前
[FGPA基础学习]分秒计数器的制作
学习·fpga开发
HP-Patience26 分钟前
【YOLOv11】目标检测任务-实操过程
人工智能·yolo·目标检测
特创数字科技29 分钟前
深度求索:开源革命下的AI普惠之路
人工智能·开源
知识分享小能手30 分钟前
CSS3学习教程,从入门到精通, CSS3 变形效果(2D 和 3D)的详细语法知识点及案例代码(22)
前端·javascript·css·学习·3d·css3·html5
果冻人工智能33 分钟前
地球无法承受 AI,是时候踩刹车了
人工智能
pen-ai37 分钟前
【NLP】14. NLP推理方法详解 --- beam search 束搜索 以及 graph search 图搜索
人工智能·自然语言处理
白夜易寒1 小时前
Docker学习之服务编排(day9)
学习·docker·eureka
大白曾是少年1 小时前
【Java进阶学习 第十篇】递归和异常
java·笔记·学习