AI绘画新手必看：Stable Diffusion与Midjourney的保姆级入门指南（附免费资源）

你是否也曾被社交媒体上那些天马行空、精美绝伦的AI绘画作品所震撼，内心跃跃欲试，却又被复杂的安装步骤、晦涩的参数和五花八门的工具劝退？别担心，这种感觉我太熟悉了。几个月前，我也和你一样，站在AI绘画的门口，看着里面眼花缭乱的世界，不知从何下脚。今天，我想和你分享的，不是一篇冰冷的技术文档，而是一份我亲身踩过无数坑后，为你梳理出的、真正"即学即用"的实战地图。我们将聚焦于目前最主流的两大工具：Stable Diffusion 和 Midjourney。前者以其强大的开源自由度和本地化能力著称，后者则以极致的易用性和惊艳的艺术效果闻名。无论你是想在自己的电脑上搭建一个专属的AI画室，还是希望快速上手，在云端轻松创作，这篇文章都将手把手带你走完全程，并附上那些真正免费、国内可访问的宝贵资源。让我们忘掉那些冗长的技术发展史，直接从"如何画出第一张属于自己的AI画作"开始。

1. 启程之前：理解你的"画笔"与"画布"

在开始动手之前，花几分钟了解你即将使用的工具本质，能让你在后续操作中少走很多弯路。你可以把 Stable Diffusion 想象成一个功能极其强大的"开源画室"。它允许你完全掌控绘画的每一个环节------从选择画布材质（模型）、调配颜料（参数），到决定光照和笔触（提示词）。它的核心优势在于自由和隐私：你可以下载各种风格的模型，在本地电脑上运行，生成的作品完全属于你，且不受任何在线服务的条款限制。但这份自由也伴随着一定的技术门槛，你需要处理软件安装、硬件配置等问题。

而 Midjourney 则更像一个顶级的"云端艺术工作室"。你无需关心背后的服务器、模型或代码，只需通过简单的聊天指令，向工作室里的"天才画师"描述你的想法，它就会在几分钟内为你呈现数幅作品。它的核心优势在于易用性 和出图质量的稳定性。Midjourney在艺术美感、构图和色彩方面，往往能给出令人惊叹的"开箱即用"效果，尤其适合追求快速、高质量视觉呈现的用户。当然，这种便利性通常以订阅付费和依赖其官方服务器为代价。

为了让你更清晰地做出选择，这里有一个简单的对比表格：

特性维度	Stable Diffusion (SD)	Midjourney (MJ)
核心模式	开源、可本地部署	闭源、云端服务
成本	本地运行免费（需硬件），云端按算力付费	按月订阅制，有免费试用额度
上手难度	中等偏高，需配置环境	极低，像聊天一样使用
自定义程度	极高，可更换模型、训练专属风格、精细控制	较低，主要通过提示词和参数控制
隐私性	极高，完全本地处理	较低，图片生成于官方服务器
艺术风格倾向	依赖所选模型，范围极广	自带强烈的"MJ风格"，偏艺术、奇幻、电影感
最佳适用场景	技术爱好者、需要特定风格/版权、批量生产、研究学习	设计师、创意工作者、快速概念可视化、社交媒体内容创作

提示：对于零基础且希望立即体验AI绘画魅力的朋友，我强烈建议你先从Midjourney的免费试用开始。它能让你在十分钟内获得正反馈，建立信心。而对技术有好奇心、希望深度掌控，或对生成内容的版权有严格要求的朋友，Stable Diffusion是你的不二之选。

2. 第一站：零门槛体验Midjourney的魔法

Midjourney的运行平台是Discord，一个在国外非常流行的社群交流应用。别被"国外应用"吓到，整个过程就像注册一个微信那么简单。

2.1 三步进入魔法世界

注册Discord账号：访问 Discord 官网或下载其客户端，用邮箱完成注册。
加入Midjourney服务器：在Discord中，点击左侧的"探索公开服务器"按钮（一个指南针图标），搜索"Midjourney"，找到并加入其官方服务器。
找到新手频道：进入服务器后，你会在左侧看到很多以"newbies-"开头的文字频道。随便找一个点进去，这里就是你可以开始作画的地方。

现在，你已经在Midjourney的画廊里了。你会看到无数其他用户正在生成图片，聊天框里飞速滚动着各种指令和精美的图片。你的创作也将从这里开始。

2.2 你的第一句"咒语"：提示词基础

在Midjourney中，一切创作始于一条以 /imagine 开头的指令。在聊天框中输入 /imagine 然后按空格，就会自动弹出提示词输入框。

关键就在这里：提示词（Prompt）是你与AI沟通的唯一语言。 它的质量直接决定了画面的质量。对于新手，记住一个简单的公式：

/imagine prompt: [主体描述] + [细节与风格] + [画质与参数]

让我们来拆解一个实例。假设你想画一只猫：

基础版 ：/imagine prompt: a cute cat 这会生成一张非常普通的猫的图片。
进阶版 ：/imagine prompt: a majestic Siberian forest cat, sitting on a mossy ancient stone in a sunbeam, photorealistic, detailed fur, cinematic lighting, 8k 让我们看看这个提示词包含了什么：
- 主体：a majestic Siberian forest cat (一只威严的西伯利亚森林猫)
- 场景与细节 ：sitting on a mossy ancient stone in a sunbeam (坐在阳光下的长满苔藓的古石上)
- 风格：photorealistic, cinematic lighting (照片级真实感，电影感灯光)
- 画质：detailed fur, 8k (细致的毛发，8K分辨率)

输入这条指令后，Midjourney机器人会开始工作，大约一分钟左右，它会返回四张预览图。

2.3 与作品互动：Upscale、Variate 和 Remix

生成四宫格后，下方会有两排按钮：

U1, U2, U3, U4：分别对应放大第1、2、3、4张图。选择你最喜欢的一张进行放大和细节深化。
V1, V2, V3, V4：基于对应编号的图片，生成四张新的、风格类似的变体。
刷新按钮：如果对四张都不满意，可以重新生成一组。

注意：Midjourney新用户通常有25次左右的免费生成额度。使用/imagine命令每次会消耗额度。Upscale（放大）和Variate（变体）同样会消耗额度。请珍惜你的免费次数，在输入提示词前多思考一下。

2.4 必须掌握的几个核心参数

在提示词末尾，你可以添加参数来更精确地控制输出。最常用的有：

--ar 16:9：设置图片宽高比，如16:9（宽屏）、1:1（正方形）、2:3（竖版）等。
--v 5.2：指定使用Midjourney的版本。目前最新是v5.2，不同版本画风和理解能力有差异。
--s 750：设置"风格化"强度，数值范围0-1000，越高AI的艺术发挥空间越大，画面可能更惊艳但也可能偏离你的描述。
--no：排除某些元素，例如 --no text, people 表示不希望画面中出现文字和人物。

一个完整的指令示例：

复制代码

/imagine prompt: a cyberpunk samurai standing in neon-lit rainy street, blade glowing blue, by Makoto Shinkai and Simon Stalenhag, hyper-detailed, cinematic, --ar 3:4 --v 5.2 --s 600

3. 第二站：搭建你的本地AI画室------Stable Diffusion WebUI

如果你决定探索更自由的Stable Diffusion世界，那么 AUTOMATIC1111的Stable Diffusion WebUI 是目前最流行、对新手最友好的本地部署方案。它提供了一个直观的网页界面，隐藏了背后复杂的命令。

3.1 环境准备：硬件与软件门槛

首先，确认你的电脑是否满足基本要求：

显卡（GPU） ：这是最重要的部分。推荐使用NVIDIA显卡 ，且显存最好不低于4GB。6GB或以上显存会有更流畅的体验。AMD显卡支持较差，需要额外配置。
内存：建议16GB或以上。
硬盘空间：至少预留20GB空间用于安装和存放模型。

软件方面，你需要准备：

Python：版本建议3.10.6或3.10.11。安装时务必勾选"Add Python to PATH"。
Git：用于从代码仓库获取WebUI。
合适的模型文件 ：这是SD的"大脑"，决定了画风。最著名的基础模型是 Stable Diffusion 1.5 或更新版本的 SDXL。你需要从Civitai、Hugging Face等模型社区网站下载 .safetensors 格式的模型文件。

3.2 一键安装与启动（Windows）

对于Windows用户，现在有极其简便的安装方式。这里介绍使用 "秋叶启动器" 的方法，它集成了所需的一切，大大简化了流程。

下载启动器：在B站或GitHub搜索"秋葉aaaki"的Stable Diffusion整合包，下载其发布的启动器压缩包。
解压与放置模型 ：将压缩包解压到一个英文路径 的文件夹（如 D:\sd-webui）。将你下载好的模型文件（.safetensors格式）放入解压后文件夹内的 models/Stable-diffusion 目录下。
启动：运行文件夹内的 启动器.exe。在启动器界面，点击"一键启动"。程序会自动处理所有依赖并打开WebUI界面。

首次启动会下载一些必要组件，时间取决于网络，请耐心等待。成功后，你的默认浏览器会自动打开一个本地网页（通常是 http://127.0.0.1:7860），这就是你的绘画操作台了。

3.3 WebUI界面初探与生成第一张图

界面看似复杂，但核心区域就几个：

左上角"Stable Diffusion checkpoint"：在这里选择你要使用的基础模型。
正中的大文本框 ：这是正向提示词（Prompt） 框，描述你希望画面里有什么。
下方的文本框 ：这是反向提示词（Negative prompt） 框，描述你希望画面里避免出现什么 （如：bad hands, blurry, ugly）。
右侧的生成参数：如采样步数（Steps）、图片尺寸（Width/Height）、生成数量（Batch count）等。

现在，让我们生成第一张图：

确保已选择一个模型（例如 v1-5-pruned-emaonly.safetensors）。
在正向提示词输入：masterpiece, best quality, 1girl, beautiful, detailed eyes, looking at viewer
在反向提示词输入：lowres, bad anatomy, bad hands, text, error, extra digit, worst quality
点击巨大的 "Generate" 按钮。

稍等片刻，你的第一张由本地Stable Diffusion生成的图片就会出现在下方了！虽然可能不那么完美，但这标志着你的本地画室已经成功运转。

4. 第三站：从"能画"到"会画"------提示词工程与模型艺术

无论是Midjourney还是Stable Diffusion，提示词都是创作的灵魂。掌握一些技巧，能让你从"随机抽卡"变成"精准指挥"。

4.1 结构化你的提示词

将提示词想象成给AI的"任务简报"，结构越清晰，结果越可控。一个高级的提示词通常包含以下层次：

复制代码

[图像类型/质量词] + [主体] + [细节描述] + [环境/背景] + [构图/视角] + [艺术风格/参考艺术家] + [渲染引擎/画质] + [参数]

质量词 ：如 masterpiece, best quality, ultra-detailed, 8k。这些词通常放在开头，能有效提升基础画质。
艺术家与风格 ：这是塑造画面风格的利器。例如 by Studio Ghibli（吉卜力风格），art by James Jean（艺术家风格），in the style of cyberpunk 2077 concept art（游戏概念艺术风格）。
光照与镜头 ：cinematic lighting, volumetric fog, god rays, wide angle lens, low angle shot 等词汇能极大增强画面的戏剧感和专业度。

4.2 探索模型的宇宙：Checkpoint, LoRA, Embedding

Stable Diffusion的生态之所以强大，在于其丰富的模型体系。

Checkpoint（大模型） ：这是主模型，文件很大（通常2-7GB），决定了基本的画风和能力范围。比如 ChilloutMix 擅长亚洲真人风格，DreamShaper 通用性很强，Anything V5 适合动漫二次元。
LoRA（低秩适应模型）：一种小型模型（几十到几百MB），用于微调大模型，实现特定人物、画风或概念的固定。比如你可以下载一个"汉服风格"的LoRA，加载后，用简单提示词就能让任何人物穿上汉服。
Embedding（文本嵌入）：更小的文件（几十KB），通常用于定义某种负面特征或强化某种风格，直接通过提示词触发。

在WebUI中，你可以在"生成"按钮下方的 "Additional Networks" 标签页中加载和设置LoRA的权重。通过组合不同的大模型和LoRA，你可以创造出独一无二的专属风格。

4.3 控制构图：从随机构图到精准布局

默认的生成是随机的。但我们可以通过一些技巧施加控制：

使用参考图（img2img）：在WebUI的"img2img"页面，上传一张草图或照片，AI会以其为构图参考进行重绘。通过调整"Denoising strength"（降噪强度）可以控制变化程度。
ControlNet插件：这是SD生态的"革命性"插件。它允许你通过上传线稿、深度图、姿态图等，精确控制生成人物的姿势、画面的构图和透视。安装ControlNet后，你甚至可以让人物摆出指定的复杂动作。

安装ControlNet通常需要通过WebUI的"Extensions"标签页进行。虽然需要一点学习成本，但它能将你的创作控制力提升数个量级。

5. 第四站：绕过门槛的云端捷径与免费资源

不是每个人都有高性能显卡，或者暂时不想折腾本地安装。别担心，我们还有强大的云端方案。

5.1 免费体验Stable Diffusion：Google Colab

Google Colab 提供了一个可以免费使用GPU的Python编程环境。许多开发者将Stable Diffusion WebUI打包成了Colab笔记本，你只需在浏览器中点击运行，就能使用谷歌的服务器来生成图片。

操作流程简述：

拥有一个谷歌账号。
搜索例如 Stable Diffusion WebUI Colab 这样的关键词，找到分享的笔记本链接（例如来自GitHub用户 camenduru 的仓库）。
打开链接，点击"复制到云端硬盘"。
在Colab界面，依次点击"运行时" -> "更改运行时类型" -> 选择"T4 GPU"或"A100 GPU"（免费用户通常只能选到T4）。
点击代码执行单元旁的"播放"按钮，等待安装完成。最后会生成一个 ngrok 或 gradio 的公共链接，点击它就能打开WebUI界面。

注意：Colab免费版有使用时长限制（通常每天数小时），且运行时可能中断，生成的图片需要及时保存。但它绝对是零成本体验SD完整功能的最佳途径。

5.2 其他值得尝试的免费/低成本平台

Playground AI：一个优秀的在线SD平台，每天有免费生成次数，界面友好，速度较快。
Leonardo.AI：同样基于SD技术，提供了丰富的官方训练模型和强大的实时画布编辑功能，每天有免费额度。
Bing Image Creator (Designer)：微软出品，由DALL-E 3驱动，生成速度极快，图像理解能力很强，通过微软账户有免费额度。

5.3 模型与提示词资源站

Civitai：Stable Diffusion模型的"大本营"，拥有海量用户分享的Checkpoint、LoRA和Embedding，是寻找灵感和管理模型的必备网站。
PromptHero：专注于收集和分享高质量的AI绘画提示词，你可以在这里搜索特定风格或物体的提示词作为参考。
Lexica.art：一个Aperture模型（SD早期分支）的提示词搜索引擎，界面简洁，图片质量高，是学习提示词构成的绝佳范例库。

6. 常见问题与效果优化：从"翻车"到"封神"

新手阶段，生成结果不如意是常态。这里列举几个典型问题及解决方案：

问题一：人物脸部崩坏、手部畸形。

原因：AI对复杂结构（如手部）的学习尚不完善；采样步数过低；提示词不够具体。
解决：
1. 在反向提示词中加入 bad hands, bad anatomy, extra fingers。
2. 使用 "面部修复" 功能（如WebUI中的 Restore faces 选项，或使用 GFPGAN、CodeFormer 等插件）。
3. 提高采样步数（如从20提高到30-50），使用更擅长人物的模型。
4. 对于SD，可以尝试使用专门修复面部的LoRA或After Detailer插件。

问题二：画面模糊、缺乏细节。

原因：提示词过于简单；未使用高质量词汇；模型本身分辨率低。
解决：
1. 在提示词开头加入 masterpiece, best quality, ultra-detailed, 8k, HDR。
2. 使用 "高分辨率修复"（Hires. fix） 功能（在SD WebUI中勾选）。先以较低分辨率生成构图，再以高倍率（如2x）和重绘幅度（如0.3-0.5）进行放大和细节补充。
3. 尝试不同的采样器（Sampler），如 DPM++ 2M Karras 或 Euler a 通常细节较好。

问题三：生成的图片完全不是我想要的。

原因：提示词有歧义或过于笼统；模型不理解某些生僻概念。
解决：
1. 具体化，具体化，再具体化。将"一只狗"改为"一只金色的成年拉布拉多犬，在秋天的公园里快乐地奔跑，嘴里叼着飞盘"。
2. 使用括号 () 来增加权重，例如 (sunlight:1.2) 表示阳光的权重是1.2倍。使用方括号 [] 来降低权重。
3. 尝试用更常见的同义词替换生僻词。如果画不出"麒麟"，试试用"Chinese mythical creature, dragon-like, deer body"来描述。

问题四：我想让AI生成特定姿势或精确复制某个元素。

解决：这是 ControlNet 和 img2img 的用武之地。
- 对于姿势：在ControlNet中上传一张人物姿势图（可以是简笔画），预处理器选 openpose，模型选 control_openpose，就能牢牢锁住姿势。
- 对于复制元素：在img2img中上传参考图，并配合较低的降噪强度（如0.3-0.4），AI会在保留原图大部分结构和内容的基础上进行风格化或细节重绘。

最后，我想说的是，AI绘画是一个需要耐心和探索的过程。它不像传统软件那样有确定的按钮，更像是在与一个充满想象力但有时会误解你的伙伴合作。最好的学习方式就是多尝试、多观察、多交流 。看到别人优秀的作品，去分析它的提示词；自己生成不满意的图，去思考是哪个环节出了问题。从Midjourney简单的/imagine开始，到在Stable Diffusion里调试一个个参数、加载不同的LoRA，每一次"翻车"都是向"封神"迈进的一步。我自己的文件夹里存满了各种失败的"黑历史"，但现在回头看，那正是我理解这个工具如何"思考"的宝贵记录。现在，打开你的Discord或WebUI，输入你的第一个提示词吧，属于你的奇幻世界正在等待被创造。