Datawhale X 魔搭 AI夏令营(2024第四期)AIGC方向 学习笔记

粗谈

这一期是使用可图+lora微调进行文生图任务的比赛

文生图也算是跨模态了,输入Prompt文本,输出图片。Prompt很重要,分为prompts和negative prompts。可以指导结果图片的生成。

lora可以参考我上期夏令营的文章:Datawhale AI 夏令营(2024第三期)AI+逻辑推理方向 模型微调学习笔记。在文生图的这个使用场景下,使用LoRA调整模型参数以实现对特定主题、风格或任务的精细化控制。

Confy UI是一个可视化工具,允许模型训练者以一个流程图的形式,进行数据预处理、模型微调、图像生成。很方便,不过目前我还没有搭建起来。

参考图控制是一种根据某种参考图指导模型生成图片样式的方式。如下图。是基于扩散模型,对初始随机噪点扩散到完整图片的方式。

baseline

稍微看了下代码,流程还是下载模型和数据集、数据预处理、lora微调、图片生成。代码里通过torch.manual_seed(seed)方便我们复现此次图片生成。

下面是我调出来的图片。剧情是用moonshot生成的,大概就是一个邮递员的梦游历险记,意外获得地图->历尽艰辛->获得巫师认可,被赐予贵重的项链->原来只是个梦,但桌上确实有那个项链。







TODO

  • 使用更适合自己想法的训练集,微调模型能力
  • 学习prompt是怎么指导模型生成的
  • 看能不能搭下Confy UI
相关推荐
向日葵xyz5 分钟前
Qt5与现代OpenGL学习(十一)OpenGL Widget鼠标控制直线旋转
开发语言·qt·学习
智慧地球(AI·Earth)8 分钟前
OpenAI for Countries:全球AI基础设施的“技术基建革命”
开发语言·人工智能·php
AI改变未来16 分钟前
我们该如何使用DeepSeek帮我们减负?
人工智能·deepseek
武乐乐~19 分钟前
论文精读:YOLO-UniOW: Efficient Universal Open-World Object Detection
人工智能·yolo·目标检测
Leinwin20 分钟前
GPT-4.1和GPT-4.1-mini系列模型支持微调功能,助力企业级智能应用深度契合业务需求
人工智能
唐兴通个人21 分钟前
知名人工智能AI培训公开课内训课程培训师培训老师专家咨询顾问唐兴通AI在金融零售制造业医药服务业创新实践应用
人工智能
MVP-curry-萌神37 分钟前
FPGA图像处理(六)------ 图像腐蚀and图像膨胀
图像处理·人工智能·fpga开发
struggle20251 小时前
ebook2audiobook开源程序使用动态 AI 模型和语音克隆将电子书转换为带有章节和元数据的有声读物。支持 1,107+ 种语言
人工智能·开源·自动化
深空数字孪生1 小时前
AI+可视化:数据呈现的未来形态
人工智能·信息可视化
标贝科技1 小时前
标贝科技:大模型领域数据标注的重要性与标注类型分享
数据库·人工智能