新职业
在Boss直聘、智联等招聘网站中,您是否遇见过这样的职位邀请?它的名字叫做LORA模型训练师
。
从图上我们可以看出其需要的技能大致是下面的样子:
- Stable Diffusion: 机器学习、神经网络、模型训练的知识;
- Lora: 训练Lora模型的能力;
- Python: 一门编程语言,这里应该是通过编程使用TensorFlow、Diffusers等AI技术;
什么是Stable Diffusion?
Stable Diffusion是一种文本到图像的潜在扩散模型,由CompVis、Stability AI和LAION的研究人员和工程师创建。
基于Stable Diffusion的开源技术,我们可以进行下面的一些操作:
- 根据文字生成图片;
- 根据文字+图片生成图片;
- 通过各种插件控制图片的生成质量和效果;
- 其他很多功能;
生成图像的效果可以参考我掘金中的文章,比如:
- 🎨日日AIGC:微笑着,好运来-多图预警
- 🎨日日AIGC:神奇世界的建筑-多图预警
- 🎨日日AIGC:战争与和平-多图预警
- 🎨日日AIGC:画了个画,风雨过后的程序员-多图预警
- 🎨日日AIGC:画个冰雪奇缘的Elsa
- 🎨日日AIGC:来自东北的五彩狐仙-多图预警
- 🎨日日AIGC:来自大连的赛博朋克-多图预警
- 🎨日日AIGC:来自大连的小丑女-多图预警
- AI风格调研-Punk Style💥
- AI风格调研-地狱恶魔(女)🔥
什么是Lora?
完整的名字应该叫做Low-Rank Adaptation of Large Language Models
,翻译成汉语是大语言模型的低阶适应
,从资料上看是微软的研究人员为了解决大语言模型微调而开发的一项技术。
在AI绘图领域,更多是指基于大模型的一种微调技术,常见的有人像Lora、风格Lora、特征Lora等等,Lora主要是针对U-Net这一部分进行的微调。
训练Lora
在掘金写过一些Lora的训练教程,有兴趣的可以细看下哈
什么是Diffusers?
Diffusers
库是一个开创性的工具,用于生成各种类型的数据,包括图像、音频等等。主要功能如下:
- 能够利用扩散
stabled diffusion
模型生成图像。 - 使用不同的
噪声调节器
来平衡模型生成速度和质量之间的关系。
简单使用Diffusers
简单的写个使用Diffusers生成图像的Python脚本,其实整体上是比较简单的。目前业界也有一种工作流程,就是通过某种顺序依次调用不同的模型以实现最终的图片生成效果。
python
import torch
from diffusers import DiffusionPipeline, AutoencoderKL
# mps是Mac的神经网络
device = "cuda" if torch.cuda.is_available() else "mps"
vae = AutoencoderKL.from_pretrained('madebyollin/sdxl-vae-fp16-fix', torch_dtype=torch.float16)
pipe = DiffusionPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0",
vae=vae, torch_dtype=torch.float16, variant="fp16",
use_safetensors=True
)
pipe.to(device)
prompt = "Fujifilm Provia 400X M85, This K-pop girl is full of liveliness and energy, with wet dress, enjoying dancing, Breathtaking, professional, bokeh, highly detailed, Shadowy, "
negativeprompt = "anime, cartoon, 3D, graphic, text, painting, crayon, graphite, abstract, glitch, deformed, mutated, ugly, umbrella,"
image = pipe(
prompt=prompt,
negative_prompt=negativeprompt,
num_inference_steps=30,
height=768,
width=512
).images[0]
image.save(f"image.png")
执行后,可以看到生成图像的进度条 生成的结果可能不太好,实际使用的时候,还需要对各个参数进行微调。
工作内容
大部分公司对Lora模型训练师的要求都比较简单,也就是训练出符合要求的Lora微调模型。
也有一部分更加高端的,需要使用Diffusers或者ComfyUI进行AI工作流程的定制,比如
目前行业前景应该不错,毕竟比较新,供需关系还没有平衡。
从学习成本来说,目前的模型迭代很频繁,是否跟进还需要看个人意愿。其他的相关文章可以关注我的掘金账号哈。
钱景
我不晓得具体的钱景,只能通过圈子内的聊天略见一斑。如果,失业之后难以找到工作,那么尝试下这个方向也未尝不可。
另外,当作一个兴趣也是不错的选择,甚至用生成的AI图来运营自媒体。比如
这个季节,钱难赚,出路更难找。