AI绘图入门:基础知识点

太初

这篇文章算不得扫盲文,仅仅是笔者初识AI绘图工具学习到的点点滴滴的记录,如果你有缘看到,可以参考参考 如果你发现文中有什么错误的地方,请指正,多谢,一起学习

Stable Diffusion

翻译: 简称 SD,使用词典翻译为:稳定扩散。

官方 Stable Diffusion 由 Stability AI 发布,使用 Python 语言开发的图像生成深度学习模型。

官方介绍: Stable Diffusion是一种基于扩散过程的图像生成模型,可以生成高质量、高分辨率的图像。它通过模拟扩散过程,将噪声图像逐渐转化为目标图像。这种模型具有较强的稳定性和可控性,可以生成具有多样化效果和良好视觉效果的图像。

GPT-4 给出的解释如下: Stable Diffusion是一种先进的深度学习模型,专注于生成高质量的图像。它属于生成对抗网络(GANs)的一种变体,但更具体地,它使用了变分自编码器(VAEs)和Transformer架构的组合,以实现在给定文本提示的情况下生成图像的能力。这种模型由CompVis团队和其他合作者开发,并于2022年公开发布。

Stable Diffusion的核心特点包括:

  1. 文本到图像生成:用户可以提供简短的文本描述(例如,"一只穿着宇航服的猫在月球上"),模型则能根据这些描述生成相应的图像。这种能力使其在艺术创作、游戏设计、广告和其他需要视觉内容的领域中非常有用。

  2. 高度定制化的输出:通过调整输入文本或模型的参数,用户可以控制生成图像的风格、细节等方面,从而获得高度定制化的输出。

  3. 开源和可访问性:Stable Diffusion的开源性质意味着研究人员、开发者和艺术家可以自由使用、修改和集成此模型,促进了人工智能领域的创新和应用。

  4. 高效性:与其他图像生成模型相比,Stable Diffusion在保持高质量输出的同时,对计算资源的需求相对较低,这使得它能够在不具备顶级硬件的设备上运行。

Stable Diffusion的应用场景非常广泛,包括但不限于:

  • 艺术创作:艺术家和设计师可以使用它来生成独特的视觉作品或作为创作过程的一部分。
  • 内容生成:在媒体和娱乐行业中,它可以用来快速生成图像或视觉内容,加速内容的生产。
  • 教育和研究:在教育领域,它可以作为学习人工智能和计算机视觉概念的工具。同时,研究人员可以通过它探索图像生成和深度学习的新方法。
  • 产品设计和原型制作:设计师可以利用它来生成设计概念或产品原型图,加速设计过程。 总之,Stable Diffusion是一个强大的工具,它将深度学习的最新进展应用于图像生成,为创意产业和技术研究提供了新的可能性。

Stable Diffusion 版本

SD 也是有多个版本,依旧目前官网 GITHUB NEWS 来看,截止 2024年01月30日,SD的当前版本为 V2,SD2.1-768

Stable Diffusion web UI

由 AUTOMATIC1111 发布的一个基于 Gradio 库的浏览器界面,用于 Stable Diffusion。

这样描述也就没有什么可说了,SD 的使用是需要通过命令方式进行的,有了界面,相对而言适合普通人操作了。

官方地址:Github 地址 >>

笔者说明: Stable Diffusion web UI 的安装过程主要在于 git,如果你是使用梯子或者代理安装,那么你可能需要通过下列命令设置一下本地 git 的代理:

cmd 复制代码
git config --global http.proxy http://127.0.0.1:10809

其中的代理地址可以从系统代理中查看,win11中:设置-网络和Internet-手动设置代理。使用完成后,通过下列命令重置:

cmd 复制代码
git config --global --unset http.proxy
git config --global --unset https.proxy

下面的命令是用于查看 git 代理情况的:

cmd 复制代码
git config --global --get  http.proxy

Fooocus

由 Lvmin Zhang 发布的一个基于 Gradio 库的图像生成软件,这里和 Stable Diffusion web UI 不同,并不是为 Stable Diffusion 服务的浏览器界面。

官方地址:Github 地址 >>

作者在项目中这样说的:

English:

Fooocus is a rethinking of Stable Diffusion and Midjourney's designs:

  • Learned from Stable Diffusion, the software is offline, open source, and free.
  • Learned from Midjourney, the manual tweaking is not needed, and users only need to focus on the prompts and images.

中文:

Foocus 是对 Stable Diffusion 和 Midjourney 设计的重新思考:

  • 从 Stable Diffusion 学习,该软件是离线的,开源的,免费的。
  • 从 Midjourney 了解到,不需要手动调整,用户只需要关注提示和图像。

从这个描述中能猜出一点,Fooocus 应该也是基于 Stable Diffusion 实现的,但是对 Stable Diffusion 的功能做了二次封装,使得它的使用更简便。

笔者说明:

1、安装

Fooocus 的初次使用及初次使用某个功能时,都会触发对应的 Models 下载(可能也是其他什么文件,笔者暂时只知道是下载了一些文件),下载这些文件是需要梯子或者代理的,但是有意思的事,如果你开启了梯子或者代理,Fooocus可能无法运行,因为会报错:

arduino 复制代码
Expecting value: line 1 column 1 (char 0)

这时候的可以通过下列几个方式:

  1. 先启动 Fooocus,运行成功后再启动梯子或代理,这样下载就不会有问题,并且也不会报错
  2. 考虑在自动配置的代理中添加排除(不一定有效,IP+端口)
  3. 不开启代理或梯子,运行 Fooocus 后,下载过程中需要下载哪个文件放到哪个目录记录下来,开启梯子人工下载

当然了,上面的方法,第一个最靠谱......不是吗!

2、汉化

直接在 Fooocus 官方 github 下的 Issues 中搜索 cn 关键词,截止目前(2024-01-30)有人申请合并过,但是作者好像没有同意,可以下载这个 cn.json 并放到 language 文件夹中,如果遇到缺少的英文汉化的情况,界面会依旧显示英文,可以自行在 cn.json 中补全

Stable Diffusion 与 Midjourney

Midjourney 大家熟知的图像人工智能工具,收费,而且不便宜,Midjourney后台应该也具有自己的【图像生成深度学习模型】,由于是商业工具,公开信息相对有限,只能合理推测,它类似于其他先进的文本到图像生成技术,比如OpenAI的DALL·E或Stability AI的Stable Diffusion,依赖于深度神经网络来理解文本输入并生成相应的图像。

Midjourney的图像生成工具展示了深度学习在艺术和创意表达方面的潜力,允许用户探索和实现他们的创意想法,无论是用于个人项目、艺术创作还是商业应用。尽管Midjourney如何具体实现其技术的细节未完全公开,但它的存在无疑加强了AI在图像生成领域的应用和影响力。

这样一来,大家应该就知道这两者是什么样的相同的和不同点了。

相同点:

  • 都是为了从文字生产图像

不同的:

  • SD 是学习模型本身,而 Midjourney 是基于某种【图像生成深度学习模型】发布的工具
  • SD 开源免费,Midjourney 商用收费,并且价格不便宜

模型(Models)

CKPT(CheckPoint)

经过训练的图片合集,被称作模型,也就是chekpoint,体积较大,一般真人版的单个模型的大小在7GB左右,动漫版的在2-5个G之间。早期的CKPT后缀名是ckpt,如今新的CKPT后缀名都是safetensors。

Fooocus 的 CheckPoint 目录为:\Fooocus\models\checkpoints Web UI 的 Lora 目录为:stable-diffusion-webui\models\Stable-diffusion

Lora

是一种体积较小的绘画模型,是对大模型的微调。与每次作画只能选择一个大模型不同,lora模型可以在已选择大模型的基础上添加一个甚至多个。一般体积在几十到几百兆左右。后缀也是safetensors。比如有专门绘制人体部位的,比如专门画面部或者眼睛的 Lora。

Fooocus 的 Lora 目录为:\Fooocus\models\loras Web UI 的 Lora 目录为:stable-diffusion-webui\models\Lora Web UI 还可以通过安装扩展 Kohya-ss Additional Networks script 的方式,然后把 lora 放到 extensions\sd-webui-additional-networks\models\lora 目录,这种方法会把 Lora 的配置项单独显示到页面上,而不是通过提示词中的 <lora:xxxx_v1.0:1.2> 方式配置权重

CheckPoint 和 Lora

  1. CKPT偏大普遍1G以上,Lora相对而言偏小几十到几百昭
  2. C站(civitai)下载时会有Type标识

资源

好吧,好吧,我承认我是初学者,资源站我只知道一个,不过真的很丰富,只有你想不到的,完全开源开放,公开可下载,存在限制级,请谨慎食用奥!如果这个地址访问不了,请自行想办法,OK!

其他

我只知道这么多,待补充

相关推荐
咸鱼桨17 分钟前
《庐山派从入门到...》PWM板载蜂鸣器
人工智能·windows·python·k230·庐山派
强哥之神28 分钟前
Nexa AI发布OmniAudio-2.6B:一款快速的音频语言模型,专为边缘部署设计
人工智能·深度学习·机器学习·语言模型·自然语言处理·音视频·openai
yusaisai大鱼32 分钟前
tensorflow_probability与tensorflow版本依赖关系
人工智能·python·tensorflow
18号房客32 分钟前
一个简单的深度学习模型例程,使用Keras(基于TensorFlow)构建一个卷积神经网络(CNN)来分类MNIST手写数字数据集。
人工智能·深度学习·机器学习·生成对抗网络·语言模型·自然语言处理·tensorflow
神秘的土鸡39 分钟前
神经网络图像隐写术:用AI隐藏信息的艺术
人工智能·深度学习·神经网络
数据分析能量站40 分钟前
神经网络-LeNet
人工智能·深度学习·神经网络·机器学习
Jaly_W1 小时前
用于航空发动机故障诊断的深度分层排序网络
人工智能·深度学习·故障诊断·航空发动机
小嗷犬1 小时前
【论文笔记】Cross-lingual few-shot sign language recognition
论文阅读·人工智能·多模态·少样本·手语翻译
夜幕龙1 小时前
iDP3复现代码数据预处理全流程(二)——vis_dataset.py
人工智能·python·机器人
吃个糖糖1 小时前
36 Opencv SURF 关键点检测
人工智能·opencv·计算机视觉