AI绘画笔记--基础知识

一.什么是AI绘画

AI绘画或者说AI生图，本质上来说还是图像生成技术，是一种基于深度学习的人工智能技术，通过提前大量学习学习图像特征，生成符合提示词的新图像。

整个流程可以简化理解为：人们首先让深度学习模型读取大量图片，"学习"图片中的每一部分应该对应哪个提示词，逐渐形成一套提示词---图像元素的对应关系网；当人们给出提示词时，深度学习模型就可以根据提示词，根据自己"学习到的经验"去生成、合成新的图像。当然，实际过程远比解释的复杂。

AI可生成多样风格插画如写实、卡通、梦幻等，通过输入关键词或参考图快速提供灵感与基础素材。其创意辅助功能能突破瓶颈，组合奇幻元素生成独特视觉效果，同时高效完成重复性图案或重复元素，节省时间以专注细节打磨。

AI能快速生成多风格促销海报如简约、华丽或可爱等，加速电商运营流程。优化产品展示角度、光影及特效以增强视觉吸引力，而且可以结合用户数据生成个性化推荐海报，提升点击率与转化效果。

AI可以生成高精度虚拟肖像，覆盖多样外貌、表情与艺术风格；支持游戏角色、虚拟偶像等定制化形象设计；提供照片修复、姿态调整及多人物场景合成等实用编辑功能。

AI可以生成概念设计图纸，快速可视化初期创意并探索方向。优化现有图纸的尺寸、比例及细节，提升准确性，辅助生成三维模型，加速设计初期可视化；智能优化图纸细节、比例与结构参数；支持团队协同，通过 AI 渲染实现设计方案高效沟通与迭代。

批量产出角色原案，快速探索外貌、服饰等设定；自动绘制复杂场景，丰富画面细节；辅助生成动画中间帧、特效及动态分镜，缩短制作周期。

结合扩散模型与对比语言-图像预训练，通过文本-图像对齐优化生成结果。其生成过程依赖大规模多模态数据集训练。其更加注重创意和探索性，艺术风格多样、细节表现力强，擅长奇幻与抽象题材。但它是闭源的，需付费订阅、生成控制较复杂。

由OpenAI开发，擅长复杂语义理解与细节刻画，需通过API调用，商业化程度高。基于扩散模型与Transformer架构，通过文本编码器与图像解码器联动生成图像。DALL-E 3进一步优化了语义理解能力。图像与文本匹配精度高，支持如多对象组合的复杂场景生成。

Stable Diffusion是基于潜在扩散模型，其生图过程主要可以分为以下三个处理模组：

（1）文本编码器（CLIP Text Encoder）：将用户输入的文本提示词转换为语义向量。

（2）扩散模型（U-Net）：在潜在空间中执行噪声预测与去噪过程，逐步生成图像特征。

（3）变分自编码器（VAE）：负责将潜在空间中的低维特征解码为像素空间的最终图像。

相比于以上两种，stable diffusion更适合大家学习与日常使用，它具有以下独特优势：

（1）开源免费、生成速度快，稳定性和可控性更好。

（2）支持本地部署与定制化训练，最大限度地保护了用户隐私和数据地安全性。

（3）具有丰富地插件和模型，可拓展性更高，给予了用户提供更高的拓展性。

（4）对内容无过多限制，可自定义模型，训练任何你想要的风格的模型，用户可以随心所欲，自由创作。

（5）对显存等电脑硬件要求较低，普通家庭级电脑也可使用。

（6）社区成熟，网上可以找到的插件和模型资源更多。