AI绘画新手必看:Stable Diffusion与Midjourney的保姆级入门指南(附免费资源)
你是否也曾被社交媒体上那些天马行空、精美绝伦的AI绘画作品所震撼,内心跃跃欲试,却又被复杂的安装步骤、晦涩的参数和五花八门的工具劝退?别担心,这种感觉我太熟悉了。几个月前,我也和你一样,站在AI绘画的门口,看着里面眼花缭乱的世界,不知从何下脚。今天,我想和你分享的,不是一篇冰冷的技术文档,而是一份我亲身踩过无数坑后,为你梳理出的、真正"即学即用"的实战地图。我们将聚焦于目前最主流的两大工具:Stable Diffusion 和 Midjourney。前者以其强大的开源自由度和本地化能力著称,后者则以极致的易用性和惊艳的艺术效果闻名。无论你是想在自己的电脑上搭建一个专属的AI画室,还是希望快速上手,在云端轻松创作,这篇文章都将手把手带你走完全程,并附上那些真正免费、国内可访问的宝贵资源。让我们忘掉那些冗长的技术发展史,直接从"如何画出第一张属于自己的AI画作"开始。
1. 启程之前:理解你的"画笔"与"画布"
在开始动手之前,花几分钟了解你即将使用的工具本质,能让你在后续操作中少走很多弯路。你可以把 Stable Diffusion 想象成一个功能极其强大的"开源画室"。它允许你完全掌控绘画的每一个环节------从选择画布材质(模型)、调配颜料(参数),到决定光照和笔触(提示词)。它的核心优势在于自由 和隐私:你可以下载各种风格的模型,在本地电脑上运行,生成的作品完全属于你,且不受任何在线服务的条款限制。但这份自由也伴随着一定的技术门槛,你需要处理软件安装、硬件配置等问题。
而 Midjourney 则更像一个顶级的"云端艺术工作室"。你无需关心背后的服务器、模型或代码,只需通过简单的聊天指令,向工作室里的"天才画师"描述你的想法,它就会在几分钟内为你呈现数幅作品。它的核心优势在于易用性 和出图质量的稳定性。Midjourney在艺术美感、构图和色彩方面,往往能给出令人惊叹的"开箱即用"效果,尤其适合追求快速、高质量视觉呈现的用户。当然,这种便利性通常以订阅付费和依赖其官方服务器为代价。
为了让你更清晰地做出选择,这里有一个简单的对比表格:
| 特性维度 | Stable Diffusion (SD) | Midjourney (MJ) |
|---|---|---|
| 核心模式 | 开源、可本地部署 | 闭源、云端服务 |
| 成本 | 本地运行免费(需硬件),云端按算力付费 | 按月订阅制,有免费试用额度 |
| 上手难度 | 中等偏高,需配置环境 | 极低,像聊天一样使用 |
| 自定义程度 | 极高,可更换模型、训练专属风格、精细控制 | 较低,主要通过提示词和参数控制 |
| 隐私性 | 极高,完全本地处理 | 较低,图片生成于官方服务器 |
| 艺术风格倾向 | 依赖所选模型,范围极广 | 自带强烈的"MJ风格",偏艺术、奇幻、电影感 |
| 最佳适用场景 | 技术爱好者、需要特定风格/版权、批量生产、研究学习 | 设计师、创意工作者、快速概念可视化、社交媒体内容创作 |
提示 :对于零基础且希望立即体验AI绘画魅力的朋友,我强烈建议你先从Midjourney的免费试用开始。它能让你在十分钟内获得正反馈,建立信心。而对技术有好奇心、希望深度掌控,或对生成内容的版权有严格要求的朋友,Stable Diffusion是你的不二之选。
2. 第一站:零门槛体验Midjourney的魔法
Midjourney的运行平台是Discord,一个在国外非常流行的社群交流应用。别被"国外应用"吓到,整个过程就像注册一个微信那么简单。
2.1 三步进入魔法世界
- 注册Discord账号:访问 Discord 官网或下载其客户端,用邮箱完成注册。
- 加入Midjourney服务器:在Discord中,点击左侧的"探索公开服务器"按钮(一个指南针图标),搜索"Midjourney",找到并加入其官方服务器。
- 找到新手频道:进入服务器后,你会在左侧看到很多以"newbies-"开头的文字频道。随便找一个点进去,这里就是你可以开始作画的地方。
现在,你已经在Midjourney的画廊里了。你会看到无数其他用户正在生成图片,聊天框里飞速滚动着各种指令和精美的图片。你的创作也将从这里开始。
2.2 你的第一句"咒语":提示词基础
在Midjourney中,一切创作始于一条以 /imagine 开头的指令。在聊天框中输入 /imagine 然后按空格,就会自动弹出提示词输入框。
关键就在这里:提示词(Prompt)是你与AI沟通的唯一语言。 它的质量直接决定了画面的质量。对于新手,记住一个简单的公式:
/imagine prompt: [主体描述] + [细节与风格] + [画质与参数]
让我们来拆解一个实例。假设你想画一只猫:
- 基础版 :
/imagine prompt: a cute cat这会生成一张非常普通的猫的图片。 - 进阶版 :
/imagine prompt: a majestic Siberian forest cat, sitting on a mossy ancient stone in a sunbeam, photorealistic, detailed fur, cinematic lighting, 8k让我们看看这个提示词包含了什么:- 主体 :
a majestic Siberian forest cat(一只威严的西伯利亚森林猫) - 场景与细节 :
sitting on a mossy ancient stone in a sunbeam(坐在阳光下的长满苔藓的古石上) - 风格 :
photorealistic, cinematic lighting(照片级真实感,电影感灯光) - 画质 :
detailed fur, 8k(细致的毛发,8K分辨率)
- 主体 :
输入这条指令后,Midjourney机器人会开始工作,大约一分钟左右,它会返回四张预览图。
2.3 与作品互动:Upscale、Variate 和 Remix
生成四宫格后,下方会有两排按钮:
- U1, U2, U3, U4:分别对应放大第1、2、3、4张图。选择你最喜欢的一张进行放大和细节深化。
- V1, V2, V3, V4:基于对应编号的图片,生成四张新的、风格类似的变体。
- 刷新按钮:如果对四张都不满意,可以重新生成一组。
注意 :Midjourney新用户通常有25次左右的免费生成额度。使用
/imagine命令每次会消耗额度。Upscale(放大)和Variate(变体)同样会消耗额度。请珍惜你的免费次数,在输入提示词前多思考一下。
2.4 必须掌握的几个核心参数
在提示词末尾,你可以添加参数来更精确地控制输出。最常用的有:
--ar 16:9:设置图片宽高比,如16:9(宽屏)、1:1(正方形)、2:3(竖版)等。--v 5.2:指定使用Midjourney的版本。目前最新是v5.2,不同版本画风和理解能力有差异。--s 750:设置"风格化"强度,数值范围0-1000,越高AI的艺术发挥空间越大,画面可能更惊艳但也可能偏离你的描述。--no:排除某些元素,例如--no text, people表示不希望画面中出现文字和人物。
一个完整的指令示例:
/imagine prompt: a cyberpunk samurai standing in neon-lit rainy street, blade glowing blue, by Makoto Shinkai and Simon Stalenhag, hyper-detailed, cinematic, --ar 3:4 --v 5.2 --s 600
3. 第二站:搭建你的本地AI画室------Stable Diffusion WebUI
如果你决定探索更自由的Stable Diffusion世界,那么 AUTOMATIC1111的Stable Diffusion WebUI 是目前最流行、对新手最友好的本地部署方案。它提供了一个直观的网页界面,隐藏了背后复杂的命令。
3.1 环境准备:硬件与软件门槛
首先,确认你的电脑是否满足基本要求:
- 显卡(GPU) :这是最重要的部分。推荐使用NVIDIA显卡 ,且显存最好不低于4GB。6GB或以上显存会有更流畅的体验。AMD显卡支持较差,需要额外配置。
- 内存:建议16GB或以上。
- 硬盘空间:至少预留20GB空间用于安装和存放模型。
软件方面,你需要准备:
- Python:版本建议3.10.6或3.10.11。安装时务必勾选"Add Python to PATH"。
- Git:用于从代码仓库获取WebUI。
- 合适的模型文件 :这是SD的"大脑",决定了画风。最著名的基础模型是
Stable Diffusion 1.5或更新版本的SDXL。你需要从Civitai、Hugging Face等模型社区网站下载.safetensors格式的模型文件。
3.2 一键安装与启动(Windows)
对于Windows用户,现在有极其简便的安装方式。这里介绍使用 "秋叶启动器" 的方法,它集成了所需的一切,大大简化了流程。
- 下载启动器:在B站或GitHub搜索"秋葉aaaki"的Stable Diffusion整合包,下载其发布的启动器压缩包。
- 解压与放置模型 :将压缩包解压到一个英文路径 的文件夹(如
D:\sd-webui)。将你下载好的模型文件(.safetensors格式)放入解压后文件夹内的models/Stable-diffusion目录下。 - 启动 :运行文件夹内的
启动器.exe。在启动器界面,点击"一键启动"。程序会自动处理所有依赖并打开WebUI界面。
首次启动会下载一些必要组件,时间取决于网络,请耐心等待。成功后,你的默认浏览器会自动打开一个本地网页(通常是 http://127.0.0.1:7860),这就是你的绘画操作台了。
3.3 WebUI界面初探与生成第一张图
界面看似复杂,但核心区域就几个:
- 左上角"Stable Diffusion checkpoint":在这里选择你要使用的基础模型。
- 正中的大文本框 :这是正向提示词(Prompt) 框,描述你希望画面里有什么。
- 下方的文本框 :这是反向提示词(Negative prompt) 框,描述你希望画面里避免出现什么 (如:
bad hands, blurry, ugly)。 - 右侧的生成参数:如采样步数(Steps)、图片尺寸(Width/Height)、生成数量(Batch count)等。
现在,让我们生成第一张图:
- 确保已选择一个模型(例如
v1-5-pruned-emaonly.safetensors)。 - 在正向提示词输入:
masterpiece, best quality, 1girl, beautiful, detailed eyes, looking at viewer - 在反向提示词输入:
lowres, bad anatomy, bad hands, text, error, extra digit, worst quality - 点击巨大的 "Generate" 按钮。
稍等片刻,你的第一张由本地Stable Diffusion生成的图片就会出现在下方了!虽然可能不那么完美,但这标志着你的本地画室已经成功运转。
4. 第三站:从"能画"到"会画"------提示词工程与模型艺术
无论是Midjourney还是Stable Diffusion,提示词都是创作的灵魂。掌握一些技巧,能让你从"随机抽卡"变成"精准指挥"。
4.1 结构化你的提示词
将提示词想象成给AI的"任务简报",结构越清晰,结果越可控。一个高级的提示词通常包含以下层次:
[图像类型/质量词] + [主体] + [细节描述] + [环境/背景] + [构图/视角] + [艺术风格/参考艺术家] + [渲染引擎/画质] + [参数]
- 质量词 :如
masterpiece, best quality, ultra-detailed, 8k。这些词通常放在开头,能有效提升基础画质。 - 艺术家与风格 :这是塑造画面风格的利器。例如
by Studio Ghibli(吉卜力风格),art by James Jean(艺术家风格),in the style of cyberpunk 2077 concept art(游戏概念艺术风格)。 - 光照与镜头 :
cinematic lighting, volumetric fog, god rays, wide angle lens, low angle shot等词汇能极大增强画面的戏剧感和专业度。
4.2 探索模型的宇宙:Checkpoint, LoRA, Embedding
Stable Diffusion的生态之所以强大,在于其丰富的模型体系。
- Checkpoint(大模型) :这是主模型,文件很大(通常2-7GB),决定了基本的画风和能力范围。比如
ChilloutMix擅长亚洲真人风格,DreamShaper通用性很强,Anything V5适合动漫二次元。 - LoRA(低秩适应模型):一种小型模型(几十到几百MB),用于微调大模型,实现特定人物、画风或概念的固定。比如你可以下载一个"汉服风格"的LoRA,加载后,用简单提示词就能让任何人物穿上汉服。
- Embedding(文本嵌入):更小的文件(几十KB),通常用于定义某种负面特征或强化某种风格,直接通过提示词触发。
在WebUI中,你可以在"生成"按钮下方的 "Additional Networks" 标签页中加载和设置LoRA的权重。通过组合不同的大模型和LoRA,你可以创造出独一无二的专属风格。
4.3 控制构图:从随机构图到精准布局
默认的生成是随机的。但我们可以通过一些技巧施加控制:
- 使用参考图(img2img):在WebUI的"img2img"页面,上传一张草图或照片,AI会以其为构图参考进行重绘。通过调整"Denoising strength"(降噪强度)可以控制变化程度。
- ControlNet插件:这是SD生态的"革命性"插件。它允许你通过上传线稿、深度图、姿态图等,精确控制生成人物的姿势、画面的构图和透视。安装ControlNet后,你甚至可以让人物摆出指定的复杂动作。
安装ControlNet通常需要通过WebUI的"Extensions"标签页进行。虽然需要一点学习成本,但它能将你的创作控制力提升数个量级。
5. 第四站:绕过门槛的云端捷径与免费资源
不是每个人都有高性能显卡,或者暂时不想折腾本地安装。别担心,我们还有强大的云端方案。
5.1 免费体验Stable Diffusion:Google Colab
Google Colab 提供了一个可以免费使用GPU的Python编程环境。许多开发者将Stable Diffusion WebUI打包成了Colab笔记本,你只需在浏览器中点击运行,就能使用谷歌的服务器来生成图片。
操作流程简述:
- 拥有一个谷歌账号。
- 搜索例如
Stable Diffusion WebUI Colab这样的关键词,找到分享的笔记本链接(例如来自GitHub用户camenduru的仓库)。 - 打开链接,点击"复制到云端硬盘"。
- 在Colab界面,依次点击"运行时" -> "更改运行时类型" -> 选择"T4 GPU"或"A100 GPU"(免费用户通常只能选到T4)。
- 点击代码执行单元旁的"播放"按钮,等待安装完成。最后会生成一个
ngrok或gradio的公共链接,点击它就能打开WebUI界面。
注意:Colab免费版有使用时长限制(通常每天数小时),且运行时可能中断,生成的图片需要及时保存。但它绝对是零成本体验SD完整功能的最佳途径。
5.2 其他值得尝试的免费/低成本平台
- Playground AI:一个优秀的在线SD平台,每天有免费生成次数,界面友好,速度较快。
- Leonardo.AI:同样基于SD技术,提供了丰富的官方训练模型和强大的实时画布编辑功能,每天有免费额度。
- Bing Image Creator (Designer):微软出品,由DALL-E 3驱动,生成速度极快,图像理解能力很强,通过微软账户有免费额度。
5.3 模型与提示词资源站
- Civitai:Stable Diffusion模型的"大本营",拥有海量用户分享的Checkpoint、LoRA和Embedding,是寻找灵感和管理模型的必备网站。
- PromptHero:专注于收集和分享高质量的AI绘画提示词,你可以在这里搜索特定风格或物体的提示词作为参考。
- Lexica.art:一个Aperture模型(SD早期分支)的提示词搜索引擎,界面简洁,图片质量高,是学习提示词构成的绝佳范例库。
6. 常见问题与效果优化:从"翻车"到"封神"
新手阶段,生成结果不如意是常态。这里列举几个典型问题及解决方案:
问题一:人物脸部崩坏、手部畸形。
- 原因:AI对复杂结构(如手部)的学习尚不完善;采样步数过低;提示词不够具体。
- 解决 :
- 在反向提示词中加入
bad hands, bad anatomy, extra fingers。 - 使用 "面部修复" 功能(如WebUI中的
Restore faces选项,或使用GFPGAN、CodeFormer等插件)。 - 提高采样步数(如从20提高到30-50),使用更擅长人物的模型。
- 对于SD,可以尝试使用专门修复面部的LoRA或After Detailer插件。
- 在反向提示词中加入
问题二:画面模糊、缺乏细节。
- 原因:提示词过于简单;未使用高质量词汇;模型本身分辨率低。
- 解决 :
- 在提示词开头加入
masterpiece, best quality, ultra-detailed, 8k, HDR。 - 使用 "高分辨率修复"(Hires. fix) 功能(在SD WebUI中勾选)。先以较低分辨率生成构图,再以高倍率(如2x)和重绘幅度(如0.3-0.5)进行放大和细节补充。
- 尝试不同的采样器(Sampler),如
DPM++ 2M Karras或Euler a通常细节较好。
- 在提示词开头加入
问题三:生成的图片完全不是我想要的。
- 原因:提示词有歧义或过于笼统;模型不理解某些生僻概念。
- 解决 :
- 具体化,具体化,再具体化。将"一只狗"改为"一只金色的成年拉布拉多犬,在秋天的公园里快乐地奔跑,嘴里叼着飞盘"。
- 使用括号
()来增加权重,例如(sunlight:1.2)表示阳光的权重是1.2倍。使用方括号[]来降低权重。 - 尝试用更常见的同义词替换生僻词。如果画不出"麒麟",试试用"Chinese mythical creature, dragon-like, deer body"来描述。
问题四:我想让AI生成特定姿势或精确复制某个元素。
- 解决 :这是 ControlNet 和 img2img 的用武之地。
- 对于姿势:在ControlNet中上传一张人物姿势图(可以是简笔画),预处理器选
openpose,模型选control_openpose,就能牢牢锁住姿势。 - 对于复制元素:在img2img中上传参考图,并配合较低的降噪强度(如0.3-0.4),AI会在保留原图大部分结构和内容的基础上进行风格化或细节重绘。
- 对于姿势:在ControlNet中上传一张人物姿势图(可以是简笔画),预处理器选
最后,我想说的是,AI绘画是一个需要耐心和探索的过程。它不像传统软件那样有确定的按钮,更像是在与一个充满想象力但有时会误解你的伙伴合作。最好的学习方式就是多尝试、多观察、多交流 。看到别人优秀的作品,去分析它的提示词;自己生成不满意的图,去思考是哪个环节出了问题。从Midjourney简单的/imagine开始,到在Stable Diffusion里调试一个个参数、加载不同的LoRA,每一次"翻车"都是向"封神"迈进的一步。我自己的文件夹里存满了各种失败的"黑历史",但现在回头看,那正是我理解这个工具如何"思考"的宝贵记录。现在,打开你的Discord或WebUI,输入你的第一个提示词吧,属于你的奇幻世界正在等待被创造。