Datawhale X 魔搭 AI夏令营(2024第四期)AIGC方向 学习笔记

粗谈

这一期是使用可图+lora微调进行文生图任务的比赛

文生图也算是跨模态了,输入Prompt文本,输出图片。Prompt很重要,分为prompts和negative prompts。可以指导结果图片的生成。

lora可以参考我上期夏令营的文章:Datawhale AI 夏令营(2024第三期)AI+逻辑推理方向 模型微调学习笔记。在文生图的这个使用场景下,使用LoRA调整模型参数以实现对特定主题、风格或任务的精细化控制。

Confy UI是一个可视化工具,允许模型训练者以一个流程图的形式,进行数据预处理、模型微调、图像生成。很方便,不过目前我还没有搭建起来。

参考图控制是一种根据某种参考图指导模型生成图片样式的方式。如下图。是基于扩散模型,对初始随机噪点扩散到完整图片的方式。

baseline

稍微看了下代码,流程还是下载模型和数据集、数据预处理、lora微调、图片生成。代码里通过torch.manual_seed(seed)方便我们复现此次图片生成。

下面是我调出来的图片。剧情是用moonshot生成的,大概就是一个邮递员的梦游历险记,意外获得地图->历尽艰辛->获得巫师认可,被赐予贵重的项链->原来只是个梦,但桌上确实有那个项链。







TODO

  • 使用更适合自己想法的训练集,微调模型能力
  • 学习prompt是怎么指导模型生成的
  • 看能不能搭下Confy UI
相关推荐
南境十里·墨染春水几秒前
linux 学习进展 网络编程 ——HTTP 协议详解
linux·网络·学习
慢慢向上的蜗牛3 分钟前
Atlas300I推理卡驱动适配Linux 6.12+内核
linux·c++·人工智能·华为·驱动·底层开发·ascend
中小企业实战军师刘孙亮4 分钟前
中小实体如何逆势稳健发展?重塑经营逻辑是关键!佛山鼎策创局破局增长咨询
学习·面试·创业创新·制造·学习方法
Mr.朱鹏5 分钟前
3.LangChain零基础速通-Prompt提示词模版和模型调用方法
人工智能·python·深度学习·langchain·llm·prompt·virtualenv
无忧智库5 分钟前
某大型建筑集团财务一体化平台建设项目方案(PPT)
大数据·人工智能
宁雨桥6 分钟前
AI前端开发面试题分享
前端·人工智能·ai
SSH_55237 分钟前
云上部署Claude+MiniMax+Gstack+Bun
人工智能
fangzt20108 分钟前
从零搭建自动驾驶中间件(三):事件驱动与协程调度的工程实践
人工智能·中间件·自动驾驶
码农小韩9 分钟前
QT学习记录(三)——C++学习基础(三)
开发语言·c++·qt·学习·算法·嵌入式软件
叶子Talk11 分钟前
GPT-5.5幻觉率骤降52.5%,但90%的公司还在裸奔?
人工智能·gpt·ai·openai·gpt-5.5·幻觉率