AI绘画新手必看:Stable Diffusion与Midjourney的保姆级入门指南(附免费资源)

AI绘画新手必看:Stable Diffusion与Midjourney的保姆级入门指南(附免费资源)

你是否也曾被社交媒体上那些天马行空、精美绝伦的AI绘画作品所震撼,内心跃跃欲试,却又被复杂的安装步骤、晦涩的参数和五花八门的工具劝退?别担心,这种感觉我太熟悉了。几个月前,我也和你一样,站在AI绘画的门口,看着里面眼花缭乱的世界,不知从何下脚。今天,我想和你分享的,不是一篇冰冷的技术文档,而是一份我亲身踩过无数坑后,为你梳理出的、真正"即学即用"的实战地图。我们将聚焦于目前最主流的两大工具:Stable DiffusionMidjourney。前者以其强大的开源自由度和本地化能力著称,后者则以极致的易用性和惊艳的艺术效果闻名。无论你是想在自己的电脑上搭建一个专属的AI画室,还是希望快速上手,在云端轻松创作,这篇文章都将手把手带你走完全程,并附上那些真正免费、国内可访问的宝贵资源。让我们忘掉那些冗长的技术发展史,直接从"如何画出第一张属于自己的AI画作"开始。

1. 启程之前:理解你的"画笔"与"画布"

在开始动手之前,花几分钟了解你即将使用的工具本质,能让你在后续操作中少走很多弯路。你可以把 Stable Diffusion 想象成一个功能极其强大的"开源画室"。它允许你完全掌控绘画的每一个环节------从选择画布材质(模型)、调配颜料(参数),到决定光照和笔触(提示词)。它的核心优势在于自由隐私:你可以下载各种风格的模型,在本地电脑上运行,生成的作品完全属于你,且不受任何在线服务的条款限制。但这份自由也伴随着一定的技术门槛,你需要处理软件安装、硬件配置等问题。

Midjourney 则更像一个顶级的"云端艺术工作室"。你无需关心背后的服务器、模型或代码,只需通过简单的聊天指令,向工作室里的"天才画师"描述你的想法,它就会在几分钟内为你呈现数幅作品。它的核心优势在于易用性出图质量的稳定性。Midjourney在艺术美感、构图和色彩方面,往往能给出令人惊叹的"开箱即用"效果,尤其适合追求快速、高质量视觉呈现的用户。当然,这种便利性通常以订阅付费和依赖其官方服务器为代价。

为了让你更清晰地做出选择,这里有一个简单的对比表格:

特性维度 Stable Diffusion (SD) Midjourney (MJ)
核心模式 开源、可本地部署 闭源、云端服务
成本 本地运行免费(需硬件),云端按算力付费 按月订阅制,有免费试用额度
上手难度 中等偏高,需配置环境 极低,像聊天一样使用
自定义程度 极高,可更换模型、训练专属风格、精细控制 较低,主要通过提示词和参数控制
隐私性 极高,完全本地处理 较低,图片生成于官方服务器
艺术风格倾向 依赖所选模型,范围极广 自带强烈的"MJ风格",偏艺术、奇幻、电影感
最佳适用场景 技术爱好者、需要特定风格/版权、批量生产、研究学习 设计师、创意工作者、快速概念可视化、社交媒体内容创作

提示 :对于零基础且希望立即体验AI绘画魅力的朋友,我强烈建议你先从Midjourney的免费试用开始。它能让你在十分钟内获得正反馈,建立信心。而对技术有好奇心、希望深度掌控,或对生成内容的版权有严格要求的朋友,Stable Diffusion是你的不二之选。

2. 第一站:零门槛体验Midjourney的魔法

Midjourney的运行平台是Discord,一个在国外非常流行的社群交流应用。别被"国外应用"吓到,整个过程就像注册一个微信那么简单。

2.1 三步进入魔法世界

  1. 注册Discord账号:访问 Discord 官网或下载其客户端,用邮箱完成注册。
  2. 加入Midjourney服务器:在Discord中,点击左侧的"探索公开服务器"按钮(一个指南针图标),搜索"Midjourney",找到并加入其官方服务器。
  3. 找到新手频道:进入服务器后,你会在左侧看到很多以"newbies-"开头的文字频道。随便找一个点进去,这里就是你可以开始作画的地方。

现在,你已经在Midjourney的画廊里了。你会看到无数其他用户正在生成图片,聊天框里飞速滚动着各种指令和精美的图片。你的创作也将从这里开始。

2.2 你的第一句"咒语":提示词基础

在Midjourney中,一切创作始于一条以 /imagine 开头的指令。在聊天框中输入 /imagine 然后按空格,就会自动弹出提示词输入框。

关键就在这里:提示词(Prompt)是你与AI沟通的唯一语言。 它的质量直接决定了画面的质量。对于新手,记住一个简单的公式:

/imagine prompt: [主体描述] + [细节与风格] + [画质与参数]

让我们来拆解一个实例。假设你想画一只猫:

  • 基础版/imagine prompt: a cute cat 这会生成一张非常普通的猫的图片。
  • 进阶版/imagine prompt: a majestic Siberian forest cat, sitting on a mossy ancient stone in a sunbeam, photorealistic, detailed fur, cinematic lighting, 8k 让我们看看这个提示词包含了什么:
    • 主体a majestic Siberian forest cat (一只威严的西伯利亚森林猫)
    • 场景与细节sitting on a mossy ancient stone in a sunbeam (坐在阳光下的长满苔藓的古石上)
    • 风格photorealistic, cinematic lighting (照片级真实感,电影感灯光)
    • 画质detailed fur, 8k (细致的毛发,8K分辨率)

输入这条指令后,Midjourney机器人会开始工作,大约一分钟左右,它会返回四张预览图

2.3 与作品互动:Upscale、Variate 和 Remix

生成四宫格后,下方会有两排按钮:

  • U1, U2, U3, U4:分别对应放大第1、2、3、4张图。选择你最喜欢的一张进行放大和细节深化。
  • V1, V2, V3, V4:基于对应编号的图片,生成四张新的、风格类似的变体。
  • 刷新按钮:如果对四张都不满意,可以重新生成一组。

注意 :Midjourney新用户通常有25次左右的免费生成额度。使用/imagine命令每次会消耗额度。Upscale(放大)和Variate(变体)同样会消耗额度。请珍惜你的免费次数,在输入提示词前多思考一下。

2.4 必须掌握的几个核心参数

在提示词末尾,你可以添加参数来更精确地控制输出。最常用的有:

  • --ar 16:9:设置图片宽高比,如16:9(宽屏)、1:1(正方形)、2:3(竖版)等。
  • --v 5.2:指定使用Midjourney的版本。目前最新是v5.2,不同版本画风和理解能力有差异。
  • --s 750:设置"风格化"强度,数值范围0-1000,越高AI的艺术发挥空间越大,画面可能更惊艳但也可能偏离你的描述。
  • --no:排除某些元素,例如 --no text, people 表示不希望画面中出现文字和人物。

一个完整的指令示例:

复制代码
/imagine prompt: a cyberpunk samurai standing in neon-lit rainy street, blade glowing blue, by Makoto Shinkai and Simon Stalenhag, hyper-detailed, cinematic, --ar 3:4 --v 5.2 --s 600

3. 第二站:搭建你的本地AI画室------Stable Diffusion WebUI

如果你决定探索更自由的Stable Diffusion世界,那么 AUTOMATIC1111的Stable Diffusion WebUI 是目前最流行、对新手最友好的本地部署方案。它提供了一个直观的网页界面,隐藏了背后复杂的命令。

3.1 环境准备:硬件与软件门槛

首先,确认你的电脑是否满足基本要求:

  • 显卡(GPU) :这是最重要的部分。推荐使用NVIDIA显卡 ,且显存最好不低于4GB。6GB或以上显存会有更流畅的体验。AMD显卡支持较差,需要额外配置。
  • 内存:建议16GB或以上。
  • 硬盘空间:至少预留20GB空间用于安装和存放模型。

软件方面,你需要准备:

  1. Python:版本建议3.10.6或3.10.11。安装时务必勾选"Add Python to PATH"。
  2. Git:用于从代码仓库获取WebUI。
  3. 合适的模型文件 :这是SD的"大脑",决定了画风。最著名的基础模型是 Stable Diffusion 1.5 或更新版本的 SDXL。你需要从Civitai、Hugging Face等模型社区网站下载 .safetensors 格式的模型文件。

3.2 一键安装与启动(Windows)

对于Windows用户,现在有极其简便的安装方式。这里介绍使用 "秋叶启动器" 的方法,它集成了所需的一切,大大简化了流程。

  1. 下载启动器:在B站或GitHub搜索"秋葉aaaki"的Stable Diffusion整合包,下载其发布的启动器压缩包。
  2. 解压与放置模型 :将压缩包解压到一个英文路径 的文件夹(如 D:\sd-webui)。将你下载好的模型文件(.safetensors格式)放入解压后文件夹内的 models/Stable-diffusion 目录下。
  3. 启动 :运行文件夹内的 启动器.exe。在启动器界面,点击"一键启动"。程序会自动处理所有依赖并打开WebUI界面。

首次启动会下载一些必要组件,时间取决于网络,请耐心等待。成功后,你的默认浏览器会自动打开一个本地网页(通常是 http://127.0.0.1:7860),这就是你的绘画操作台了。

3.3 WebUI界面初探与生成第一张图

界面看似复杂,但核心区域就几个:

  • 左上角"Stable Diffusion checkpoint":在这里选择你要使用的基础模型。
  • 正中的大文本框 :这是正向提示词(Prompt) 框,描述你希望画面里有什么
  • 下方的文本框 :这是反向提示词(Negative prompt) 框,描述你希望画面里避免出现什么 (如:bad hands, blurry, ugly)。
  • 右侧的生成参数:如采样步数(Steps)、图片尺寸(Width/Height)、生成数量(Batch count)等。

现在,让我们生成第一张图:

  1. 确保已选择一个模型(例如 v1-5-pruned-emaonly.safetensors)。
  2. 在正向提示词输入:masterpiece, best quality, 1girl, beautiful, detailed eyes, looking at viewer
  3. 在反向提示词输入:lowres, bad anatomy, bad hands, text, error, extra digit, worst quality
  4. 点击巨大的 "Generate" 按钮。

稍等片刻,你的第一张由本地Stable Diffusion生成的图片就会出现在下方了!虽然可能不那么完美,但这标志着你的本地画室已经成功运转。

4. 第三站:从"能画"到"会画"------提示词工程与模型艺术

无论是Midjourney还是Stable Diffusion,提示词都是创作的灵魂。掌握一些技巧,能让你从"随机抽卡"变成"精准指挥"。

4.1 结构化你的提示词

将提示词想象成给AI的"任务简报",结构越清晰,结果越可控。一个高级的提示词通常包含以下层次:

复制代码
[图像类型/质量词] + [主体] + [细节描述] + [环境/背景] + [构图/视角] + [艺术风格/参考艺术家] + [渲染引擎/画质] + [参数]
  • 质量词 :如 masterpiece, best quality, ultra-detailed, 8k。这些词通常放在开头,能有效提升基础画质。
  • 艺术家与风格 :这是塑造画面风格的利器。例如 by Studio Ghibli(吉卜力风格),art by James Jean(艺术家风格),in the style of cyberpunk 2077 concept art(游戏概念艺术风格)。
  • 光照与镜头cinematic lighting, volumetric fog, god rays, wide angle lens, low angle shot 等词汇能极大增强画面的戏剧感和专业度。

4.2 探索模型的宇宙:Checkpoint, LoRA, Embedding

Stable Diffusion的生态之所以强大,在于其丰富的模型体系。

  • Checkpoint(大模型) :这是主模型,文件很大(通常2-7GB),决定了基本的画风和能力范围。比如 ChilloutMix 擅长亚洲真人风格,DreamShaper 通用性很强,Anything V5 适合动漫二次元。
  • LoRA(低秩适应模型):一种小型模型(几十到几百MB),用于微调大模型,实现特定人物、画风或概念的固定。比如你可以下载一个"汉服风格"的LoRA,加载后,用简单提示词就能让任何人物穿上汉服。
  • Embedding(文本嵌入):更小的文件(几十KB),通常用于定义某种负面特征或强化某种风格,直接通过提示词触发。

在WebUI中,你可以在"生成"按钮下方的 "Additional Networks" 标签页中加载和设置LoRA的权重。通过组合不同的大模型和LoRA,你可以创造出独一无二的专属风格。

4.3 控制构图:从随机构图到精准布局

默认的生成是随机的。但我们可以通过一些技巧施加控制:

  • 使用参考图(img2img):在WebUI的"img2img"页面,上传一张草图或照片,AI会以其为构图参考进行重绘。通过调整"Denoising strength"(降噪强度)可以控制变化程度。
  • ControlNet插件:这是SD生态的"革命性"插件。它允许你通过上传线稿、深度图、姿态图等,精确控制生成人物的姿势、画面的构图和透视。安装ControlNet后,你甚至可以让人物摆出指定的复杂动作。

安装ControlNet通常需要通过WebUI的"Extensions"标签页进行。虽然需要一点学习成本,但它能将你的创作控制力提升数个量级。

5. 第四站:绕过门槛的云端捷径与免费资源

不是每个人都有高性能显卡,或者暂时不想折腾本地安装。别担心,我们还有强大的云端方案。

5.1 免费体验Stable Diffusion:Google Colab

Google Colab 提供了一个可以免费使用GPU的Python编程环境。许多开发者将Stable Diffusion WebUI打包成了Colab笔记本,你只需在浏览器中点击运行,就能使用谷歌的服务器来生成图片。

操作流程简述:

  1. 拥有一个谷歌账号。
  2. 搜索例如 Stable Diffusion WebUI Colab 这样的关键词,找到分享的笔记本链接(例如来自GitHub用户 camenduru 的仓库)。
  3. 打开链接,点击"复制到云端硬盘"。
  4. 在Colab界面,依次点击"运行时" -> "更改运行时类型" -> 选择"T4 GPU"或"A100 GPU"(免费用户通常只能选到T4)。
  5. 点击代码执行单元旁的"播放"按钮,等待安装完成。最后会生成一个 ngrokgradio 的公共链接,点击它就能打开WebUI界面。

注意:Colab免费版有使用时长限制(通常每天数小时),且运行时可能中断,生成的图片需要及时保存。但它绝对是零成本体验SD完整功能的最佳途径。

5.2 其他值得尝试的免费/低成本平台

  • Playground AI:一个优秀的在线SD平台,每天有免费生成次数,界面友好,速度较快。
  • Leonardo.AI:同样基于SD技术,提供了丰富的官方训练模型和强大的实时画布编辑功能,每天有免费额度。
  • Bing Image Creator (Designer):微软出品,由DALL-E 3驱动,生成速度极快,图像理解能力很强,通过微软账户有免费额度。

5.3 模型与提示词资源站

  • Civitai:Stable Diffusion模型的"大本营",拥有海量用户分享的Checkpoint、LoRA和Embedding,是寻找灵感和管理模型的必备网站。
  • PromptHero:专注于收集和分享高质量的AI绘画提示词,你可以在这里搜索特定风格或物体的提示词作为参考。
  • Lexica.art:一个Aperture模型(SD早期分支)的提示词搜索引擎,界面简洁,图片质量高,是学习提示词构成的绝佳范例库。

6. 常见问题与效果优化:从"翻车"到"封神"

新手阶段,生成结果不如意是常态。这里列举几个典型问题及解决方案:

问题一:人物脸部崩坏、手部畸形。

  • 原因:AI对复杂结构(如手部)的学习尚不完善;采样步数过低;提示词不够具体。
  • 解决
    1. 在反向提示词中加入 bad hands, bad anatomy, extra fingers
    2. 使用 "面部修复" 功能(如WebUI中的 Restore faces 选项,或使用 GFPGANCodeFormer 等插件)。
    3. 提高采样步数(如从20提高到30-50),使用更擅长人物的模型。
    4. 对于SD,可以尝试使用专门修复面部的LoRA或After Detailer插件。

问题二:画面模糊、缺乏细节。

  • 原因:提示词过于简单;未使用高质量词汇;模型本身分辨率低。
  • 解决
    1. 在提示词开头加入 masterpiece, best quality, ultra-detailed, 8k, HDR
    2. 使用 "高分辨率修复"(Hires. fix) 功能(在SD WebUI中勾选)。先以较低分辨率生成构图,再以高倍率(如2x)和重绘幅度(如0.3-0.5)进行放大和细节补充。
    3. 尝试不同的采样器(Sampler),如 DPM++ 2M KarrasEuler a 通常细节较好。

问题三:生成的图片完全不是我想要的。

  • 原因:提示词有歧义或过于笼统;模型不理解某些生僻概念。
  • 解决
    1. 具体化,具体化,再具体化。将"一只狗"改为"一只金色的成年拉布拉多犬,在秋天的公园里快乐地奔跑,嘴里叼着飞盘"。
    2. 使用括号 () 来增加权重,例如 (sunlight:1.2) 表示阳光的权重是1.2倍。使用方括号 [] 来降低权重。
    3. 尝试用更常见的同义词替换生僻词。如果画不出"麒麟",试试用"Chinese mythical creature, dragon-like, deer body"来描述。

问题四:我想让AI生成特定姿势或精确复制某个元素。

  • 解决 :这是 ControlNetimg2img 的用武之地。
    • 对于姿势:在ControlNet中上传一张人物姿势图(可以是简笔画),预处理器选 openpose,模型选 control_openpose,就能牢牢锁住姿势。
    • 对于复制元素:在img2img中上传参考图,并配合较低的降噪强度(如0.3-0.4),AI会在保留原图大部分结构和内容的基础上进行风格化或细节重绘。

最后,我想说的是,AI绘画是一个需要耐心和探索的过程。它不像传统软件那样有确定的按钮,更像是在与一个充满想象力但有时会误解你的伙伴合作。最好的学习方式就是多尝试、多观察、多交流 。看到别人优秀的作品,去分析它的提示词;自己生成不满意的图,去思考是哪个环节出了问题。从Midjourney简单的/imagine开始,到在Stable Diffusion里调试一个个参数、加载不同的LoRA,每一次"翻车"都是向"封神"迈进的一步。我自己的文件夹里存满了各种失败的"黑历史",但现在回头看,那正是我理解这个工具如何"思考"的宝贵记录。现在,打开你的Discord或WebUI,输入你的第一个提示词吧,属于你的奇幻世界正在等待被创造。

相关推荐
晁好刚1 小时前
亲测Z-Image-ComfyUI:AI绘画中文提示词效果惊艳
ai绘画·comfyui·星图gpu·中文提示词
征途阿韦1 小时前
从0开始学AI绘画:Z-Image-Turbo新手入门教程
文生图·ai绘画·z-image-turbo·星图gpu
爱绘画的彤姐1 小时前
【AI工具大盘点】AI绘画利器:Stable-Diffusion-ComfyUI保姆级教程
人工智能·ai作画·stable diffusion·aigc·comfyui·dall·e 2·ai工具
树獭叔叔2 小时前
扩散模型完全指南:从直觉到数学的深度解析
后端·aigc·openai
weixin_463923422 小时前
写论文全程没用AI,被检测出“AI生成”,AIGC是否靠谱?
人工智能·毕业设计·aigc·论文笔记
GEO_Huang3 小时前
扎根珠三角,数谷 AI 定制助千企数智化转型
人工智能·aigc·rpa·geo·ai+rpa
饼干哥哥3 小时前
谷歌连夜发布Nano Banana 2,跨境电商工作流又要重写了!!
aigc
TAPD敏捷研发3 小时前
TAPD联合企业微信、CNB、CodeBuddy,推出AI研发与协同办公系列分享会
人工智能·aigc·企业微信·产品经理·个人开发·腾讯·tapd
AI生成未来4 小时前
图像生成迎来“思考-研究-创造”新范式!Mind-Brush:统一意图分析、多模态搜索和知识推理
人工智能·计算机视觉·aigc·agent·图像生成