Midjourney简明教程(一):有关Midjourney的基本信息
AI绘画
绘画是人类一门很古老的艺术门类,人类通过实体的器具、画笔、颜色、颜料等反映客观世界和表达主观世界。
而AI绘画则是通过借助就计算机机器学习算法和模型来生成绘画作品,人类只需要输入满足一定规则和规范的自然语言指令。这让人类脱离了实体工具的限制,借助二进制0和1就能"自动"且"无中生有"生成惊艳的图片,充分释放想象力和创意。
AI绘画是AIGC(人工智能生成内容)的重要领域,借助AI,我们已经看到了不同模态(文本、图片、视频、音频等)的自动生成,这种内容形态的颠覆式技术已经并将极大地改变商业形态和日常生活。
AI绘画的基本原理
AI绘画主要基于扩散模型,这是一种机器学习模型,具体原理对于很多小白很难理解,实际上对于使用Midjourney影响不大,但对于极客类AI绘画爱好者,了解Midjourney底层原理则是必要的。
前一段时间,我大量查阅了国内国外的AI绘画原理的文档和视频,很多教程都在讲正向添加噪点与逆向去噪的原理,但具体细节目前我还不是特别清晰,也没有找到一种浅显易懂的方式来解释,后面我会但拎出来一篇来具体讲讲。
想要学习和专研的朋友可以参考如下资源:
【中文】
- YouTube【李宏毅】【生成式AI】淺談圖像生成模型 Diffusion Model 原理
- YouTube【李宏毅】【生成式AI】Diffusion Model 原理剖析 (1/4) (optional)
- B站【子牧说】你的文字是怎么变成图片的?-AI绘画底层原理拆解
- YouTube【氪学家】Stable Diffusion绘画底层原理 用一颗桃树为你讲清楚 知识点:AI绘图原理 | Diffusion扩散模型 | 采样器 | 采样步数
- B站【大白话AI】 | 图像生成模型DDPM | 扩散模型 | 生成模型 | 概率扩散去噪生成模型
- 【腾讯云开发社区】AI绘画火了!一文看懂背后技术原理
【英文】
- 【YouTube】【Vox】The text-to-image revolution, explained
- 【YouTube】How AI Image Generators Work (Stable Diffusion / Dall-E) - Computerphile
- 【YouTube】Diffusion Models | Paper Explanation | Math Explained
- 【YouTube】How does Stable Diffusion work? -- Latent Diffusion Models EXPLAINED
AI绘画的价值与应用前景
AI绘画目前的火热已经从专业领域扩散到普通用户,甚至有些狂热。就像我之前说过的那样,尝鲜期很容易兴奋,但当这一波"热恋期"过去,我们真正应该思考的是------AI绘画如何与我们的日常生活和工作相结合,尤其是深度结合的点,否则你会很容易丧失新鲜感和目标感,AI绘画水平也会无法提高。
就我个人的观察和实际体验来看,AI绘画的价值主要体现在:
- 个人表达
主要体现在充当社交货币(通俗讲就是装X、炫耀)、兴趣探索、表达自己的思想和创意、实用价值(个人IP形象、配图)
- 商业应用
将AI绘画用在具体的工业、商业实践中,比如运营、设计、产品等岗位的低频图片需要,比如电商、游戏等行业的高频批量级商业应用。
- 创新研究
这一类主要是研究人员、算法工作者等借助AI绘画开展算法训练与研发以及衍生方向的创新性探索,比如视频是图片的帧变化,AI绘画可以给视频生成提供参考。
最后,AI绘画毕竟表现形式就是图片,图片如何在日常生活和工作中发挥作用,这是值得大家思考的问题。
我们常说"AI不会取代你,但会AI的人会取代你",但AI生成的图片在我们日常生活中扮演什么角色?如果你是插画师和设计师,那么你要危机感很重,因为这是直接侵蚀你的专业领域,你需要掌握AI绘画来提高产出效率,成为那个掌握AI的人;如果你是一个内容创作者,那么你不必焦虑,AI绘画可以给你赋能,你不必花很多时间在免费图库网站上寻找配图,写几段提示词让AI生成就行。
说这些主要想表达,不必贩卖焦虑,AI对普通人的影响不是均匀的,影响范围和程度是有差异的,这需要你结合具体场景来判断;在学习AI绘画的时候,务必结合个人专业领域来学习,这回给你沉下来,给你提供专研的方向和差异化优势。
主流工具:Midjourney VS Stable Diffusion
AI绘画大概去年夏天就开始大热了,此后很多AI绘画工具和模型出现,但就我知道的就要:Midjourney、Stable DIffusion、DALL·E、Leonardo.Ai、Adobe Firefly、Bing Image Creator、 Scenario、Red Squid。但目前最流行的还是Midjourney与Stable Diffusion。
关于Midjourney与Stable Diffusion的比较,可以下图:
可以看到,Midjourney相比较Stable Diffusion门槛低、新手友好、简单提示词就能生成高质量图片,但功能有限、无法满足一些个性化需求,而且Midjourney是一家私人公司,会员价格不低。而Stable Diffusion是一个开源模型,可以根据个人需要开发和训练,只要你有一台性能不错的电脑就可以根据自己的需要训练或绘制,当然不用付费。
但二者的基本原理和操作相似度很高,学习任意一种都容易切入另一种,当然Stable Diffusion操作和规则相对复杂一些。
基于此,对于如果你电脑性能不够,想体验和学习AI绘画,那么Midjourney就是一个最好的选择。只要你提供一个简单的提示词,你就会得到一个足够惊艳的图片!
参考资料:
Midjourney及其背后的团队
Midjourney的创立与迭代
Midjourney 的创始人 David Holz 是一名连续创业者,大学就读于北卡罗来纳大学教堂山分校(University of North Carolina--Chapel Hill)学习物理学和数学,曾在NASA 和 Max Planck 攻读流体力学博士学位。
2008年 David Holz创办了一家名为 Leap Motion的VR公司,2013 年B轮融资后其估值达到了 3.06亿美元,但后来市场不达预期,2019 年以 3000 万美元的价格卖给竞争对手 英国公司Ultrahaptics。
2021 年 8 月,David Holz创立自筹资金的独立AI实验室Midjourney。
2022年3月,Midjourney发布Discord封闭内测版本。由于大获成功,GPU计算量庞大,次月,Midjourney开始限制内测人数增长并开启货币化(付费)。
2022年4月18日,Midjourney发布V2版本,允许邀请用户
2022年6月,Midjourney登上《经济学人》杂志封面
2022年7月,Midjourney上线公测,同月发布V3版本,Midjourney 迅速成为世界上规模最大的 Discord 服务器
2022年8月,39岁游戏设计师艾伦(Jason M. Allen)通过Midjourney生成并经Photoshop润色的绘画作品《太空歌剧院》在美国科罗纳州博览会(Colorado State Fair)上获得"数字艺术/数字修饰照片"一等奖,引发舆论巨大关注和争议。
2022 年 11 月 Midjourney发布V4 版本。
2023年3月,Midjourney发布V5版本,5月4日发布V5.1版本
Midjourney的团队
根据公开信息,Midjourney 团队成员十分精简,也就11个人撑起了如此海量规模用户群,着实让人惊叹。
除了 CEO David Holz之外,还有 8 位研究与工程师,2 位财务与法务。除此之外,还有 4 位编外顾问,以及 60 位兼职 Discord 运营。
团队整体比较年轻,甚至还有多位今年5、6月份才毕业的大学生,负责财务的是Nadia Ali是团队中年纪最长的,也是Leap Motion的老员工(财务和运营副总裁)。
Midjourney的商业模式
Midjourney采用付费订阅的商业模式,订阅分三档:基础会员(年付费8美元/月)、标准会员(年付费24美元/月)、专业会员(年付费48美元/月),有博主测算Midjourney年入2.5亿美元收入。
据公众号"海外独角兽"报道,Midjourney的用户群包括C端个人消费者以及SMB中小企业;成本方面,Discord 会收取约 10% 的手续费,而模型训练成本以及其他成本目前不知,但公众号"海外独角兽"称"Midjourney 的毛利率约为 80%"。
用户数据方面,根据公开资料,Midjourney 的 Discord 拥有 1450 万注册会员,约有 110 万 (7.5%) 随时在线且活跃。
有人指出,Midjourney 的增长很大一部分归功于其在美版贴吧 Reddit 上的活跃社区,Midjourney subreddit 目前拥有超过 275,000 名成员。
参考资料
【中译版】
想象力的引擎|AI图像生成的兴起:专访Midjourney 创始人David Holzmp.weixin.qq.com/s/X6ztt9OAprgUuykIP4fqOg编辑
- 推特博主:Aakash Gupta
- Midjourney创始人大卫·霍尔兹
- Midjourney:AIGC现象级应用,一年实现1000万用户和1亿美元营收
- Midjourney Statistics: Users, Polls, & Growth [May 2023]
- Midjourney statistics (Updated: May 2023)
Midjourney简明教程(二):账号准备
上一篇文章介绍了Midjourney的相关背景信息,接下来我来介绍一下Midjourney账号准备相关的内容以及Discord的基本操作。
前置条件
具备使用海外互联网服务的能力
由于Midjourney是国外的应用,且国内无法直接使用,所以你需要具备海外冲浪的条件,这里不再赘述。只是插一句,强烈建议你具备这个能力,不管你用不用Midjourney,你都应该能够充分利用外部世界的信息和资源,有些时候海外的信息和潮流要领先国内好几个月,这好几个月的信息差足以够聪明的朋友来套利。
Discord软件
Midjourney服务是架设在Discord上,Discord大概相当于国内的QQ,上面可以新建服务器(相当于QQ群),在服务器内可以新建频道和子频道(相当于在QQ群内根据需要设置的不同分区)。我们在Midjourney上绘画就是在Discord的某个服务器上进行,而且由于同一个Discord账号可以新建多个服务器、共享同一个Discord付费服务,所以我们能够订阅Midjourney会员并多人共享,以此来分担费用、降低Midjourney使用成本。
账号的两种使用方式
Midjourney共享账号
由于Midjourney会员价格比较贵而且国内很多人不太方便支付,所以我们看到大量的人是在拼单共享Midjourney会员(也就是一个账号多个人使用)。我就是这么做的,毕竟一个月一两百块实在肉疼,我也建议你这样做,土豪除外。
使用共享账号的话,操作方式很简单。你只需要去Discord官网下载软件并安装(建议在电脑端使用),不需要注册Discord账号。
如果你身边有Midjourney账号注册和海外支付能力的人,可以让对方注册和购买Midjourney会员,然后给你提供账号密码登录Discord。
当然,我知道很多人身边是没有这样的人,所以我们可以求助万能的某宝。
在某宝上有很多提供Midjourney账号代充值和账号共享的店铺,你可以自己检索并选择一家。根据我个人不多的共享账号使用经验,有几点注意事项需要提醒你:
- Midjourney会员分为三档:基础会员(Basic Plan)、标准会员(Standard Plan)、专业会员(Pro Plan),根据我们一般人的使用频率和支付能力,共享账号大多购买的是标准会员;
- 共享账号人数会影响你的AI绘画使用体验,如果人数过多或者使用频繁,你就需要排队等待出图。在某宝购买Midjourney共享账号时你务必提前咨询店家:是哪种会员?共享账号多少人使用?以Midjourney标准会员为例,一般6-8人共享,每人每月分担大概三十多块。如果共享人数超过10人,不建议购买使用。
- 部分灰产采用特殊的技术和支付方式(比如使用黑卡支付),导致共享账号使用不足一月就提示账号到期。因此,你需要在注意留意店铺的评论区,看是否有相关的负面评价。
- 尽量添加店铺微信,方便后续有问题及时反馈;
- 尽量多尝试在几家店铺购买,选择一个使用体验不错的长期使用,其他作为备份,以防某些原因无法使用;
假设你已经购买了共享账号,那么店家会提供给你Discord账号和密码。你需要用此登录Discord,此时Discord会提醒你进行双重认证,找店家索要验证码。认证成功即可顺利进入Discord界面。
Midjourney私人账号
如果你是土豪,你同样可以找某宝店铺代充值或者麻烦身边有海外支付条件的朋友。这个时候你就需要自己注册Discord账户了,注册方式很简单。
进入Midjourney官网,点击右下角任一机会进入Discord注册页面。只需要提供邮箱、密码即可,需要注意的是,尽量使用Gmail或Outlook等外网邮箱注册。
Discord设置
通过以上两种方式的任意一种进入Discord后,需要完成如下步骤才能进行AI绘画:
新建个人服务器
在Discord左侧点击"+"号来添加自己的服务器
接入Midjourney Bot机器人
首先,点击左侧Midjourney服务器,在新手频道点击右上角查看"查看成员名单"标志,找到Midjourney Bot机器人
其次,点击Midjourney机器人,按照步骤添加至自己的服务器
完成上述步骤,你就已经可以顺利使用Midjourney的AI绘图服务了。
Midjourney会员
前面提到了Midjourney会员,这里对比一下不同层级会员的服务差异,可以看到,主要体现在三个方面:
- 快速生成服务的时长,等级越高、时长越多。Midjourney生成图片有两种模式Fast模式(快速模式)和Relax模式(宽松模式),快速模式指的是GPU优先处理你的生成请求,处理时间较短,而Relax宽松模式下则根据GPU使用情况按照先来后到的顺序来处理你的请求,速度稍慢。
- 快速模式下同时处理生成的数量。
- 私密性,Midjourney生成的图片默认是出现在公平社区的,只有专业会员的生图不被其他人看到。
好的,以上就是账号准备部分,下一篇将介绍Midjourney生成的具体命令和参数,欢迎持续关注。
Midjourney简明教程(三):Discord常见命令
前面的文章我们已经对Midjourney有了基本认识,并且已经完成了账号准备工作,接下来将介绍Discord常见命令
我们知道Midjourney绘画是搭载在社群工具Discord上的,那么我们需要了解一些Discord的常见命令来调用Midjourney机器人来完成指定动作。
命令的唤起
英文输入法下在输入框输入反斜杠/,系统就会自动提示常见的命令以及全部可用的命令
常用命令
以下表格是Midjourney目前可用的命令,就我们日常使用来说,很多用不着,下面我简单介绍一些常用的几个命令
命令 | 含义 | 使用频率 |
---|---|---|
ask | 向系统咨询问题,系统会弹出答案和提示 | / |
blend | 也即是常说的融图,上传多张(2-5张)图片,系统会将其融合为一张 | ⭐⭐⭐⭐ |
describe | 图片生成提示词,上传一张图片,系统会生成四段提示词供你参考 | ⭐⭐⭐⭐ |
fast | 切换到快速模式,一般不用 | / |
info | 查看账户信息 | ⭐⭐⭐ |
settings | Midjourney机器人生成图片相关的设置 | ⭐⭐⭐⭐ |
imagine | 最常用绘图命令,紧跟着提示词 | ⭐⭐⭐⭐⭐ |
help | 向系统求助,系统会弹出新人快速指南 | / |
invite | 获得一个Midjourney Discord服务器的邀请链接 | / |
prefer option set | 设置自定义选项,比如设置自定义后缀参数 | / |
prefer auto_dm | 设置完成的任务会自动发送到私信 | / |
prefer suffix | 设置提示词后缀 | ⭐⭐ |
prefer remix | 开启/关闭混音模式 | / |
private | 切换到隐身模式(仅专业版会员) | / |
public | 切换到公共模式 | / |
relax | 切换到放松模式 | / |
show | 通过人物ID恢复指定图片 | / |
stealth | 切换到隐身模式(仅专业版会员) | / |
subscribe | 订阅Midjourney会员 | ⭐⭐ |
1、提示词命令
imagine命令是日常最高频的命令,Midjourney主要功能是文字生成图片,imagine就是输入提示词的命令。
输入/imagine后,系统会弹出prompt并且鼠标闪烁等待提示词输入(如下示例),基本上我们日常所有与Midjourney机器人绘图交互都是通过这个命令------输入提示词,Midjourney机器人执行
2、账户命令
- subscribe
这个命令是用于订阅Midjourney会员,如果你是免费试用用户或者到期续费,可以执行这个命令,根据弹出的提示完成会员订阅。
- info
这个命令用来查看账户的基本信息和使用情况:
这里特别需要注意的是fast模式的使用剩余时间,Fast模式有限调用GPU所以生成图片速度快,但不同会员等级Fast时间有限,所以需要掂量着用,一旦Fast时间用完,要么切换到速度较慢的relax模式,要么需要额外购买fast时长。
- settings
这个命令是用来设定Midjourney服务的默认设置,V5版本及早前的设置项有很多,当前的设置项仅剩如下:
(1)模型版本
模型版本用来选择绘图所默认选择的模型,目前Midjourney已经迭代到V5.1版本,一般而言我们会使用最新的版本,毕竟新版本效果更出众。
绘图模型基本可以分为两类,常规模型(也就MJ version XX以及新推出的底片模式RAW Mode)和二次元动漫模型(也即是Niji version XX)。如果不是特别绘制二次元动漫类图片,我们默认会选最新版常规模型,比如MJversion 5.1
(2)风格化程度
所谓风格化指的是生成的图片更具艺术感和美学表现,也可以在书写提示词时用后缀参数"--s 数值"的形式,这个会在讲解提示词参数时再详解。
这里可以设置低风格化(Style low)、中等风格化(Style med)、高风格化(Style high)、极高风格化(Style very high)
(3)模式设置
Public Mode:公开模式,绘图作品会出现在社区公开可见
Fast Mode:快速模式,优先调用GPU,生成图片速度快
Remix Mode:混音模式,可以对生成的图片微调
3、生图高级命令
日常我们还大概率会用到两个高级Discord命令,后续还会详解
(1)blend(融图)
这个命令主要用来将本地上传的多张图片(2-5张)进行融合并生成一张新的图片,一般我们用来制造图片叠加效果
(2)describe(图生提示词)
很多时候,我们看到某个图片风格很棒,想要模仿一张,但是不知道用用什么词准确描述,那么就可以使用describe命令,上传本地图片,系统会生成四段提示词供参考,点击序号即可生成该提示词的图片。
这个功能可以用来做风格探索,对词汇匮乏的朋友可以也有一定帮助。就实际体验来看,这个功能的效果一般般。
好了,上面就是Midjourney绘图中你需要掌握的常见Discord命令。
有了前面的准备,我们就可以进入Midjourney最核心的提示词写作部分了,那我们下回再见。
Midjourney简明教程(四):Prompt提示词入门
前面已经完成了Midjourney的准备工作,接下来我们来学习Midjourney绘图的核心------提示词。
教程框架
一、什么是提示词
提示词是AI绘图的核心和主体,是与AI对话的语言,只有精到、准确的提示词才能生成特定风格、满足既定需求的图片,也就是说提示词Prompt是AI绘画的魔法和咒语
关于提示词的定义,我们先来看看官方文档上的界定:
A Prompt is a short text phrase that the Midjourney Bot interprets to produce an image. The Midjourney Bot breaks down the words and phrases in a prompt into smaller pieces, called tokens, that can be compared to its training data and then used to generate an image. A well-crafted prompt can help make unique and exciting images.
中文翻译为:
提示词Prompt是这样一个简短的文本表述语句,Midjourney机器人将其转译来生成一个图像。Midjourney机器人将提示词中的单词和短语分解成更小的片段,称之为令牌,而这些令牌可以与Midjourney训练数据进行比较,然后用来生成图像。一个精心设计的提示词可以帮助你生成独特的和令人兴奋的图像。
从上面的定义可以看出,提示词是一种人机对话的自然语言,人类可以输入我们日常使用的语言来让Ai来处理,而不是以往程序员们使用的特定编程语言。
如果你看到我之前列举的AI绘画底层原理的资源,大概能明白,模型训练时AI会将自然语言提示词拆解为一个个token令牌,将文本转化为数字,将文本这种高维信息降维为数学可以处理的向量数据**,**从而将视觉信息转化数学运算,经过复杂的算法增加噪点以及逆向去噪最终释放维度还原为图片信息。
这也就一定程度上意味着,Midjourney绘画更擅长处理文本信息,而且并不包含逻辑推演和计算。我看到推特上有人在提示词中使用数学函数和公式,并由此生成了漂亮的图片。但我以为这只是随机性的副产品,Midjourney并不具备数学计算的能力,我们日常使用提示词时主要还是聚焦在文本语言的叙述上。
二、提示词结构
知道了提示词的含义,下面我们来拆解一下提示词的结构。
Discord输入框中,输入法在英文状态下输入反斜杠/,于是系统就唤起常用命令,我们选择imagine,此时鼠标就定位到提示词输入框,这一部分就是我们日常输入提示词的区域。
根据官方文档介绍,提示词基本结构分为三部分:图片提示(Image Prompts)、文本提示词(Text Prompt)、后缀参数(Parameters),且每一部分用空格分开。
在当然这三部分中,文本提示词是必不可少的部分,也是提示词的主体,图片提示词在需要提供参考图片(也即垫图)时使用,如果不需要可以略去,后缀参数可以使用系统默认的设置,也可以自己设定。一言以蔽之,提示词的核心是文本提示词(以及后缀参数),也是我们日常最需要花功夫的部分。
我们以文本提示词一只猫(a cat)为例,提示词的三种情形:
提示词主要是对生成对象的文本描述,要想比较精到地反映对象需要全面、精炼、简洁地用词,大体上描述一个对象或者一个图片,文本提示词可以从主体描述、环境氛围、艺术类别、艺术风格、材质、构图、视角、光照、色调等等方面来解构,这个后续会进一步阐释。
三、提示词与Midjourney绘图的基本操作
在Discord输入框输入上述提示词后,按Enter键系统就会开始绘图,并一次性返回一组四宫格图片(每张512 x 512像素)。这组四宫格图片有默认的序号,从上到下从左到右依次为1、2、3、4
图片下方有两排按钮,分别为U和V:
- U指对图片放大,比如U1指的是对第一张图片放大,放大后的图片有更高的像素质量。如果你对放大后的图片满意可以点击小红心给系统反馈,帮助训练算法;如果你不满意,也可以点击第一个"Make Variations"(产生变体)进入Remix模式,修改提示词并以该图为基准继续生成。
- V指的是Variations(变体),当我们对生成的四张图片中的某一张满意并想以此继续生成时可以使用V+数字序号,比如V1指的是以第一张图为基准继续产生图片。
基本上来说,Midjourney在输入提示词后第一回就生成满意的概率不高,我们往往需要不断地V图和U图才能找到满意的图片,我们常常开玩笑说AI绘画就像抽卡,指的也就是Midjourney出图随机,废片率高,可控性差,很难一次成图。
四、基础语法
上面就是Midjourney结合提示词绘图的基本操作,下面我们来介绍Midjourney基础语法,主要包括两部分:参数、常见操作与命令
(一)参数
参数是Midjourney提示词的后缀部分,由于Midjourney会不定期更新,后缀参数也会不断变化,有的不再支持,有的升级,有的需要结合其他后缀一块使用,因此需要持续关注并更新自己的认识。
1、参数的语法
- 后缀参数与文本提示词之间用一个空格隔开;
- 后缀参数以--开头,紧跟着参数名或参数名缩写,如果参数还带有数值或属性,也要用空格隔开;
- 不同参数之间要用空格隔开;
2、常用参数
- --version或--v
命令:--v+空格+版本号数字
制定或选择模型版本,由于目前最新版本是5.1,图片质量更佳,我们可以使用--v 5.1。当然,我们可以直接调用settings命令设置默认的模型版本。
- --aspect或--ar
宽高比,宽高比主要影响构图和图片形状,Midjourney 的默认宽高比为 1:1,你也可以修改为其他宽高比,比如常见的3:4或9:16。以往版本会对宽高比有限制,目前V5版本和niji 5版本均解除了宽高比限制
- --chaos或--c
命令:--c+空格+数值(数值范围为0~1000,默认为0)
chaos参数影响初始的四宫格图片之间的差异。chaos越小,每次生成的四宫格组图之间风格差异越小,反之越大。
- --quality或--q
命令:--q+空格+数值(目前数值接受.25, .5, 1和2,默认为1)
在提示词后加上--quality 或 --q 参数,可以影响图像生成的质量(不影响分辨率)或图片细节,但高质量的图像需要更长的生成时间,也意味着每次生成耗费的 GPU 分钟数也会增加。较高的quality值并不总是更好,较低的quality可能也有不错的效果,比如抽象外观。
- --seed
命令:--seed +空格+数值(数值范围为 0--4294967295)
Midjourney 机器人使用随机生成的seed值来创建视觉噪声场作为生成初始图像网格的起点,并最终影响图片的质量;尽管seed值是系统随机生成,但可以指定seed值,使用相同的种子值和类似的提示词可以产生相似的生成结果,一般我们使用相同的seed值来一致的人物形象或者场景。因为Midjourney生成图片是随机或抽卡,结果存在很大不确定性,而使用相同的seed值可以让结果风格保持一致。
如何查看图片的seed值?可以在图片结果右上方"添加反应"出找到信封(envelope)符号并点击,系统机器人会返回该任务的任务ID和seed值。我们可以复制这个seed值去书写提示词,以生成类似风格的图片。
- --stop
命令:--stop+空格+数值(数值范围为10--100)
stop可以让Midjourney在生成图片的一定进度停止生成,以此造成某些模糊或不那么精细的结果。最低进度是10%,最高是100%。
- --stylize或--s
命令:--s+空格+数值(取值范围是0~1000,默认值是100)
stylize参数影响Midjourney默认的美学样式和风格化强度,数值越大,生成的图片就越有艺术感,但与提示词的相关性也弱。
下图是stylize参数在不同版本的取值范围和默认值,需要注意的是,Niji版本不支持stylize参数。
- --tile
该参数用于生成无缝纹理,无缝纹理常用在壁纸、面料织物等上的无缝图案。该参数适用于v1, v2,v3, test, testp, v5和v5.1版本。
- --repeat或--r
命令:--repeat+空格+数值
该命令可以让机器人重复执行提示词N次,产生N组四宫格图片。
因为重复执行提示词会大量消耗GPU资源,所以该参数命令仅限标准版和专业版会员使用,且标准版次数数值为 2--10,专业版次数数值为2--40。另外,--repeat 参数只能在快速fast GPU 模式下使用
- --iw
该参数为图片提示相对文本提示词的权重,较高的图片提示权重意味着参考图片对图片结果影响更大。
下面是不同版本下图片权重的取值范围与默认值
- --no
负向提示词(Negative Prompt),该参数以--no开头,后接图片不想出现的元素。比如下图生成七彩试管,如果需要排除红色,只需要后缀"--no red"
- --niji
Niji 是 Midjourney 和 Spellbrush 合作推出的一款专门针对动漫和二次元风格的模型,可通过在提示词后添加 --niji 调用,由此产生动漫风图片。
貌似Midjourney很注重动漫二次元风格模型的开发,目前已经推出多种细分动漫风格模型。在使用语法上,需要在后缀参数添加niji版本+细分模型(参考下图)。
目前可用且常用的Niji动漫细分模型有:
(1)--style cute
这种动漫风格偏可爱风
(2)--style scenic
这种动漫风格偏大场景的风景风格
(3)--style expressive
这是niji v5版本的功能,漫画风格更加偏向欧美二次元,更写实更加偏向游戏原画。
(二)高级提示词命令与操作
垫图( Image Prompt)
前面提示词结构部分讲过图片提示词,但没有细讲,这里特别介绍。
图片提示可以和文本提示词结合使用,以便文本提示词根据参考图片来生成预期的图片,并且还可以赋予图片提示权重,即后缀参数"--iw"来分配图片提示的参考程度。图片提示还可以单独使用,多张参考图片融合。
图片上传:点击输入框的"+"号------"上传文件",可以多选一次上传多张,然后按Enter键,此时图片就上传到Midjourney服务器。
右键任一图片,选择"复制链接"即复制了该图片在Midjourney服务器上的地址。在书写提示词时,将图片链接粘贴进输入框,且若多个链接间空格分隔,图片链接与文本提示词之间也用空格分隔。
这样我们就完成了图片提示或者垫图操作,系统会根据图片生成新的图片。一般我们使用垫图功能主要场景是参考上传的图片来生图,比如上传自己的照片+文本提示生成个人皮克斯风格头像,再比如上传模特照片+文本提示生成特定穿着的新模特照片。
Blend融图
提示词输入框调用blend命令,可以上传2-5张图片,不需要文本提示词,然后按Enter键,系统会将它们融合为一个新图像,这就是融图。
融图的使用场景是,将不同的图片或不同元素融合在一张新图片中,比如上传自己的图片及一张风景照,将自己融进风景中。
Remix模式
remix目前我没看到正确而准确的翻译,有人将其翻译为"混音",但这种翻译只是翻译了mix,而没有翻译出re。在音乐领域,混音和remix都有混合的共性,但remix含义更丰富,简单翻译一下就是对音乐进行改编或者重新编曲**。** 关于混音Audio Mixing和remix的区别,可以参考文章《为什么Remix不能翻译为混音?》。
回到Midjourney中的Remix模式,所谓remix就是指对于已经生成的图片改写文本提示词、后缀参数等生成新图片,而这种新图片采用原图片的构图,并帮助更改图像的设置或灯光以及主体调整。按照我的理解,Remix多用在对图片微调。
Remix模式的开启和关闭可以通过调用settings命令,在默认设置中开启或关闭。
我们在V图产生变体时,对经过放大后的图片"Make Variations",就在调用"Remix Prompt",即提示词改编。
比如初始图的提示词是:a cat,我们使用"Make Variations"改编提示词为:a cat with blue eyes in the sun
Describe命令:图生提示词
有些时候我们看到某张图片很想知道这张图片是什么风格、某些提示词如何写但自己又不知道,那么describe命令就可以用来解决这样的问题。
调用describe命令用来上传本地图片,按Enter确认,系统会自动识别图片信息,然后返回四段参考提示词以及提示词序号,选择任一序号,可以直接点击生成查看结果也可以进入Remix模式修改提示词再生成。
根据我的使用体验,系统识别能力有限,参考提示词的生成结果并不是让人满意,但它确实提供了一种想象力,通过图片识别生成提示词来解决绘图爱好者缺乏灵感或者进行思路探索的问题。
多重提示(Multi Prompts)
所谓多重提示指的是这样的场景:
- 我们的提示词中某个短句是一个完整的概念还是多个概念容易引发歧义时,比如hot dog,到底是指热狗香肠这一个实体,还是指的是一个热的气喘吁吁的狗,包含热以及一只狗两个概念?那么多重提示词就用来区分两个或多个单独的概念。
- 提示词的某个短句不同组成部分我们想增加某个部分的权重或者生成时的影响程度,比如还是hot dog,我们指的是一只气喘吁吁的狗,如果此时我们想增加hot(热)的程度,表现非常热,那么可以通过多重提示词赋予hot更好的权重。
多重提示的语法:在需要分隔概念时使用英文输入法下双冒号+空格来区隔,若想增加双冒号前元素的权重,就在冒号后输入数值来表示权重。
如下图所示,左图仅区隔概念,右图不仅区隔还增加hot的权重
需要注意,权重默认为1,且Midjourney的V1、V2、V3版本只接受整数作为权重,而V4版本及后续版本可以接受权重的小数位。
另外,还需要补充一个概念------负向提示词权重(Negative Prompt Weights),也就是多重提示中的权重为负值,用在排除不想要的元素,比如下图中排除红色。在这一点上,负向提示词权重等价于使用负向提示词后缀"--no red"
另外,一段提示词中所有权重的总和必须是正数。
排列组合功能Permutation
Permutation 排列组合功能用在这样的场景:一段提示词执行不同的任务,产生不同的风格或规格的图片,这样可以查看各自效果便于灵感探索或者比照选择合适的提示词。
- 排列组合功能的语法是,使用大括号{}包括不同的选项,选项之前用英文逗号分隔。
- 排列组合功能的输出是,系统会选择每一个大括号的元素与括号外的提示词组合成一段提示词来执行一次生成任务,而全部任务数可以借助初中数学排列组合公式来计算。如下图的一段提示词会产生三次绘图任务
使用排列组合功能可以在一段提示词中的不同部分组合不同的元素(比如图片提示、文本提示、后缀参数、提示词权重等),如下图所示的一段提示词会产生2*2*2*2*2=32个任务。因为单次执行过多任务对GPU产生过大压力,因此Midjourney限制排列组合功能仅限专业版会员在Fast模式下使用,且一次最多12个并发作业数。
另外,排列组合功能还可以在大括号中进行嵌套,但那样可能更复杂,一般人也用不到。
五、文本提示词的写作方法
在具体文本提示词写作上,目前经过Midjourney绘画爱好者各自探索,已经形成了多种提示词写作方式,尤其是对于长提示词或者超长提示词。综合推特上AI绘画大佬Nick St. Pierre的帖子以及其他人的分享,我总结有如下提示词写作方式:
1、常规提示词写法(normal prompting)
这是我们写作提示词的最常用的方式,短语词组之间使用逗号分隔
a cat in polygonal art colorful animal sitting in dark background, in the style of escher-inspired, low resolution, color gradients, highly realistic, digital print, neon realism, mosaic-inspired realism --ar 3:4 --v5.1
2、分类提示词法(Category prompting)
这种写法方法使用逗号、竖线或分号分隔不同类别的元素,且在元素组前面额外添加一个类别名称,这样写作的好处是结构清晰,非常适合使用 ChatGPT 实现自动化。
IMAGE : Cinematic | GENRE : Adventure | MOOD : Mysterious | SCENE : A group of explorers venture into a dense forest,discovering hidden secrets and ancient relics | ACTORS : Explorers | LOCATION TYPE : Forest | TAGS: Adventure, mystery, forest, movie scene--ar 16:9 --v 5
Style : Magazine photography, Subject : Body builder Elon Musk, Features : he is extremely muscular with massive vascularity and striated muscles, covered in colorful tattoos --ar 2:3
VISUAL_FORMAT : Cinematic::1 | GENRE: Adventure::1 | MOOD : Mysterious::1 | SCENE : A group of explorers venture into a dense forest, discovering hidden secrets and ancient relics::1 | ACTORS : Explorers::1 | LOCATION TYPE : Forest::10 | TAGS: Adventure, mystery, forest, movie scene::1 --ar 16:9
3、叙事式提示词法(Narrative prompting )
当 Midjourney 开发人员宣布最新模型可以更好地理解自然语言时,这种写作方法一度在 V5 中变得流行。具体就是指在写作时用我们日常的自然语言以散文风格或者写小作文的形式来写提示词。这种方式在表达情绪或描述场景时可能有用,但没法控制或确定哪个词组词汇对提示词更有用。
In a cinematic adventure scene, a group of explorers tread cautiously through a dense forest. With a mysterious atmosphere surrounding them,they uncover hidden secrets and ancient relics that lay hidden within the forest's depths. --ar 16:9 --v 5
4、疑问句提示词写作法(Interrogative prompting)
据Nick St. Pierre介绍,这种写作法源自V3版本时期,由Eroteme Art提出。这种方法难以控制,但也可能有意想不到的艺术效果。
What would a mysterious adventure scene look like, where a group of explorers venture into a dense forest and discover hidden secrets and ancient relics? --ar 16:9 --v 5
Midjourney简明教程(五):文本提示词解构
前面我已经介绍了Midjourney入门知识和提示词入门,接下来会是Midjourney进阶内容。所谓进阶内容主要指的是文本提示词写作的提升技巧,让你将写提示词更精到、内容更丰富。
如果之前的教程内容你没看过,欢迎点击如下链接阅读:
重新认识文本提示词
前面介绍过,提示词是Midjourney绘图的核心,而文本提示词就是核心的核心。
文本提示词描述了所要绘图的内容:是什么、长什么样、穿戴如何、在什么环境下、天气怎么样、光线如何、气氛如何,诸如此类。
你可以省略图片提示,或者后缀参数,但文本提示词是你必须书写的部分。
一定意义上,写提示词就是写文本提示词,文本提示词的好坏直接关系着Midjourney绘图的结果。
由于文本提示词的内容十分丰富,所以我们日常看到的各种艺术形式、多变的词汇、各类玩法和套路基本都是文本提示词范围内的变化,很多Midjourney新人和玩家到处搜罗提示词实际上就是搜集特定的文本提示词。
即便Midjourney日常不断迭代更新,但Midjourney的功能操作、各类参数命令终究是很简单的,很容易掌握,而内涵丰富的文本提示词则囊括的东西太多且因人而异。如果说Midjourney绘画是一种艺术形式,由于艺术是再现和表现客观世界和主观世界的,客观世界和主观世界有多么丰富和复杂,描述客观世界和主观世界的Midjourney提示词就会多么丰富和复杂。
综上,我们就会理解文本提示词的重要性和丰富性,这也是我们需要投入大量时间和功夫钻研的地方。
文本提示词解构
刚才说到,文本提示词是描述主观世界和客观世界的文本语言,那么主观世界和客观世界由哪些元素组成或构成呢?
老实说,这个没有标准答案,也无法穷举。无法穷举是因为主客观世界太丰富,没有标准答案指的是因人而异、因对象而异、因需求而异。比如描述一只猫可能很容易,提示词会很简单,描述之前提到的Midjourney获奖作品《太空歌剧院》则会很复杂,也许你要书写上百个单词的超长文本提示词。
也正因为文本提示词复杂而多样,因此我们看到很多人在解构文本提示词时会有不同的解构方式。需要说明的是,所谓解构指的是将文本提示词拆分为各种组成部分。
比如,有人将文本提示词解构为:主题+介质+环境+构图+打光+颜色+风格+图片质量
也有人将文本提示词解构为:主体描述+细节描述+艺术风格+图片质量
以及,还有人将提示词解构为:主体描述+细节描述+艺术家+图片质量
下面是推特上Ai绘图大佬Nick的一个摄影类提示词解构
我们不能说谁对谁错,可能这些解构方式适用的场景或者生成的图片风格不一样,你也可以总结自己的文本提示词解构方式,然后将这些组成部分分门别类建立Midjourney知识库去收集相关的词汇、词组、艺术形式,当你需要绘画时复制粘贴并拼凑组合成为一段文本提示词。实际上,我就是这么做的。
根据我目前接触到的推特上大佬的文本提示词以及我个人的绘图实践,我目前将文本提示词解构为如下部分:
主体(艺术)门类
所谓主体门类指的是,描述的主体对象的实体归属或艺术门类是什么,比如Midjourney绘图是描述一张绘画作品(照片?素描?插画?),还是一个实物雕塑?或者一个电影场景?
描述清楚了主体(艺术)门类你才能得到确定的绘图,不然如果你的提示词只是一只猫,Midjourney可能生成的是一张猫的照片,或者一只猫的插画或漫画,或者一只猫的玩偶形象。虽然不管你的文本提示词是什么,Midjourney都会生成一张图片,但图片中展示的实体是什么需要你在文本提示词中说明,是photography?还是illustration?还是icon?
我看推特上以及国内一些人将主体门类概括为Medium(介质),所谓介质指的是绘图的材料和工具,比如摄影照片运用的是光影,油画用的是颜料,素描用的是铅笔或钢笔,雕塑用的是大理石等等。我不认同这种划分方式,这种方式也不容易理解,所以我采用的是主体(艺术)门类这种说法,后面我会具体说明。
艺术风格
艺术风格就很容易理解了,如果说上面的主体(艺术)门类一级分类,那么艺术风格就是二级分类或三级分类。
举个例子:
如果绘图的主体门类是绘画,那么艺术风格就是绘画这个大门类下的具体年代和艺术流派,比如印象派、表现主义、抽象主义等等。
如果绘图的主体门类是电影,那么艺术风格可以是电影类型,比如黑白电影、彩色电影,可以是电影风格,比如新浪潮电影、实验电影,可以是电影类型,比如科幻片、恐怖片、爱情片,可以是特定导演风格,比如最近流行的维斯·安德森导演风格、黑泽明导演风格、张艺谋导演风格。
艺术风格不局限于艺术门类下的二级分类,还可继续分类下去,比如电影-科幻电影-1980年代科幻电影-1980现代雷德利·斯科特导演的科幻电影。
打光/灯光
涉及到绘图,尤其是摄影或者实物类主体,那么灯光就是一个绕不开的提示词分类,因为光影会影响或者带来不同的图片效果、质感或者人物情绪。
比如:
逆光(back light)、顶光(toplighting)
伦勃朗光(Rembrandt lighting)、自然光(natural lighting)
色彩色调
色彩运用也是一门艺术,需要说明的是,虽然Midjourney是一个文生图应用,无法确切识别特定颜色值,比如RGB颜色值、十六进制颜色码,但对于常见的颜色识别度还是挺高的,我们可以在日常使用Midjourney时尝试。
材质工艺
材质指的是主体制作的材料,比如羽毛、毛线、皮革还是玻璃。
工艺指的是主体制作的过程使用的技法、特殊技艺,比如鎏金、烫染、镶嵌、钩针、熔融
形状
形状一般用的少,只是有时候描述物体是方形、圆形、球形、射线、特殊字符等时需要。
环境
环境就是主体所处的场景,是什么时间、什么地点、什么天气、什么建筑、什么风景等等。
情绪
情绪一般指人物、动物或者拟人化的物体表现出的开心、生气、惊讶扥情绪反应。
景别构图
景别构图就是物体在画面中的相对位置,是中心还是一角,是大全景还是中景或特写。
镜头视角
镜头视角常见于摄影类绘图中,是俯视、平视、侧视,还是卫星视图或无人机视图。视角不同,物体的与环境的关系就不同,表现力就不同。
相机&摄影
这部分也大多出现在摄影类绘图中,这其中涉及到很多摄影术语和专业名词,有不同的相机、不同的相机镜头以及不同的摄影技术。
渲染
渲染一般出现在计算机建模或者游戏动漫建模的绘图场景中,渲染技术通过计算机计算模拟现实的光影和材质工艺技术来制造物体,因此渲染类描述词只在特定的场景下使用。
成图设定
我这里使用成图设定主要指的是图片最终的清晰度、分辨率、品质、细节、逼真度等描述词,这是影响Midjourney绘图结果的质量,也是最常用的一些基础设定。
灵感参考
我们在日常写提示词时会发现,如果加上某些参考性的词汇(比如特定的导演、杂志、模特、艺术家),生成结果会更有个性和艺术风格,那么灵感参考类提示词就是必要的组成部分,比如我们想生电影领域的色彩大师维斯·安德森那样浓烈的逼死强迫症的构图和色彩搭配,那么我们就可以在提示词中引用维斯·安德森的名字:Wes Anderson style。
Wes Anderson style
结语
以上就是我个人使用的文本提示词解构方式,你也可以基于自己的习惯或者参考他人的方式总结自己的解构类别。后面我会对于每个解构的部分做专题阐述,敬请期待。
需要说明的是,虽然文本提示词可以解构这些类别,但具体使用上可能并不需要集合所有类别或者去堆砌类别,这需要你结合具体对象或者绘图表达的主题来选择解构的类别。
而且,由于Midjourney特有的高质量底层模型和出图质量,很多时候很简单的提示词就产出高质量的图片,这个时候堆砌类别描述词有时候没啥提升也可能弄巧成拙,我们需要结合实际需要来判断。
上面提示词解构的最大好处是,将我们的文本提示词进行分类,一方面让我们在提示词时逻辑清晰、结构化,另一方面也有助于我们日常学习和拆解其他人的优秀提示词为我所用。比如我自己在刷推特时看到好的Midjourney图片就会这样拆分类别,将没见过的词汇或者词组以及固定搭配收集下来放在Notion知识库里,日积月累自己的知识库丰富了,就不会求爷爷告奶奶到处求提示词,自己写提示词也能顺利很多。
以上就是文本提示词的解构部分,下一篇将是主体(艺术)门类专题。
Midjourney简明教程(六):主体门类划分
前面介绍了Midjourney提示词的解构,主要目的是帮助我们拆解我们所看到的以及所书写的提示词,如果解构的足够清晰也有助于我们写出结构化的提示词。
今天我们来谈谈Midjourney绘画的主体门类,可能比较枯燥,权当开拓思路。
什么是主体门类
我这里提到的主体门类可能不是一个很好的概括,但我目前还没找到准确描述的词汇。
所谓主体门类指的是Midjourney绘画主体所属的实体类别或者艺术形式。我们知道Midjourney基本上是文生图,也即输入文本、描述需求,系统返回一张接近文本需求的图片,不管你的主体是什么,你得到的都是一张图片。但即便最终表现上是一张图,但图中描述的主体却又不仅仅是图,就像前文提到的那样,图中反映的是丰富的主观和客观世界,主客观世界的实体和艺术形式就是我这里提到的主体门类。
说的有点抽象,这里举个例子:
你看基本提示词就很简单一句话,只是添加了一些不同的词汇,得到的结果就从写实摄影变成了手绘、插画、动画、雕塑等不同的形式。最终我们看到的都是Midjourney生成的一张图片,但主体门类千差万别,摄影还是偏写实的反映客观世界,插画、动画等都已经是以艺术形式反映客观世界。
通过这个例子,我们就知道了,同样是一张图片,但图片反映的主体(Subject)是什么物体(Object)、对象或者艺术形式(Art)却是大不相同的,我们在使用Midjourney绘图前需要明确我们需要的主体实体是什么并在提示词中体现出来。
常见的主体门类
我记得前一段时间阅读Midjourney创始人David Holz的专访,他说AI绘画是人类想象力的引擎。这个引擎最直接的表现就是大大拓展了人类在创意和艺术方面的创造力,目前在互联网上传播的Midjourney绘画大多已经不是写实作品,AI创作者结合太多历史中形成的艺术形式,并结合了自己的审美偏好和想象力创造出了非凡的艺术图片。
但不管AI创作者如何挥洒创意,就像我前面说过的那样,AI绘画可以无中生有,但AI绘画始终是对主客观世界的反映。我这里不想谈什么物质决定意识之类的马克思主义主义哲学辩证法,我想说的是,我们在Midjourney绘画时要描述的主体以及主体的形式来自于现实世界,来自于人类数千年来创造过的物质和文化。
那么人类创造过的物质和文化,或者说Midjourney绘画的主体门类有哪些呢?老实说,我也不清楚,因为那是汪洋大海,难以一一枚举。为了解构主体门类归纳人类的艺术形式我专门去翻了翻纽约大都会艺术博物馆、旧金山现代艺术博物馆、大英博物馆、 卢浮宫博物馆、故宫博物院,试图找到一个分类清晰的全面的以及符合MICE原则的艺术分类,但目前我并没有找到。同时,我还意识到,很多东西并不能称之为艺术,也不在艺术范畴内,因此很难有这样一个归类。但总体而言,Midjourney是艺术和想象力的创作,那么归纳艺术大概能囊括大部分Midjourney的主体门类。
于是我去查了查,艺术都哪些分类,尽管各家有各家的说法,甚至艺术分类都能写出一本书,但大体上还是有共识的。我在微信读书上翻到王玉苓的《艺术概论》,书中讲到按照不同的标准有不同的艺术分类,比如:
(1)以对艺术形象的感知方式为依据,可将艺术分为视觉艺术(绘画、雕塑、摄影、书法等),听觉艺术(音乐),视听艺术(戏剧、影视),想象艺术(文学)。
(2)以艺术形象的存在方式为依据,可将艺术分为空间艺术(绘画、雕塑等),时间艺术(音乐、文学),时空艺术(舞蹈、戏剧、影视)。
(3)以艺术形象对主客观世界的反映关系为依据,可将艺术分为再现艺术(绘画、雕塑、小说等),表现艺术(音乐、舞蹈、建筑等),再现表现艺术(戏剧、影视)。
(4)以艺术形象的展示方式为依据,可将艺术分为静态艺术(绘画、雕塑、建筑等),动态艺术(音乐、舞蹈、戏剧、影视等)。
(5)以艺术形象的功能为依据,可将艺术分为审美艺术(也称纯艺术)(音乐、舞蹈、绘画、雕塑、摄影、诗歌、戏剧、影视等),实用艺术(建筑、工艺美术等)。
在另外一本书------彭锋的《艺术学通论》中,作者给出了十分详细的艺术史和艺术分类的分析,其中提到的艺术分类有:绘画、雕塑、建筑、舞蹈、文学、音乐、设计、书法、戏剧、摄影和电影。
正如我前面提到的那样,这些只是艺术形式,还有很多主体和形式不能称之为艺术,比如某些工业方法或者普通手工。而且现代物质文明的发展已经产生了很多上述分类无法覆盖的门类或者形式,比如某些数字技术。也正因为上述的原因,对Midjourney的主体门类做归纳和划分是十分麻烦的事,我也不是专业的艺术专业研究者,无法总结出一个详尽的不重复无遗漏的分类出来,我只能按照我当前的知识储备和审美来解构。
按照我的理解,Midjourney绘画主体门类,或者说一级门类可以分为下面几类:
- 绘画
- 雕塑
- 建筑
- 设计
- 摄影
- 电影
- 数字艺术
- 工艺造型
很显然,我去除了戏剧、舞蹈、文学、诗歌等类别,因为作为绘画工具,Midjourney无法再现和表现这些艺术形式。
上述艺术门类还可以继续划分二级、三级乃至更多子类别,因为我所知有限且还处在总结阶段,就不一一展示了,你可以查阅相关书籍和网上资料来补充。
我以绘画为例,你可以随便找一本介绍西方绘画的书籍来了解西方绘画有哪些流派、每个流派的风格是什么、有哪些代表性艺术大师,这样你可以在Midjourney中结合这些绘画知识生成你的作品。
比如,新艺术运动(Art Nouveau)是十九世纪末二十世纪初发端自英国"工艺美术运动"并扩散至欧洲的艺术形式,影响了建筑、家具、产品、首饰、服装、平面设计、书籍插画一直到雕塑和绘画艺术,新艺术运动风格的核心元素是自然的形态、蜿蜒流畅的线条和不对称的动态构图。网上查阅,你还会知道"新艺术是一场运动,而不是单一的一种风格,可分为直线风格和曲线风格,装饰上的和平面艺术的风格,并以其对流畅、婀娜的线条的运用、有机的外形和充满美感的女性形象著称,由于追求浪漫和感性,所以人物头上常常开花"。
于是,我们可以有这样一段提示词:
这段提示词中就使用了新艺术运动(Art Nouveau)词汇也具有了新艺术运动的风格,其Midjourney生成结果如下图:
类似的,你可以通过划分的艺术门类以及学习的基本艺术知识来生成你的作品,可以说,这样的创意无穷无尽。
艺术门类划分的意义
我知道,有些人肯定会觉得使用Midjourney绘画还要进行艺术门类划分耽误事而且没有什么意义。如果要是单纯地随便玩玩,复制别人的提示词随便改改,那这样做确实没什么意义。但如果你想专研AI绘画,那么这一步是必不可少的。在我看来,搞清楚技术门类以及不断积累艺术知识,其意义在于:
1)、知道艺术门类及其划分,有助于在Midjourney绘画时有的放矢。当你知道了你想要的是油画还是插画的时候,你就会知道使用哪些词汇、哪些艺术家风格来描述你的绘画需求,即便你不知道使用什么词汇你也有大致的检索方向。
2)、当你遇到优秀的Midjourney作品,你就解析其提示词时,你当然可以使用Midjourney的Describe功能来分析,但当你知道了这个作品属于什么分类、什么艺术形式,那么你可以分辨Midjourney的Describe功能生成的四段提示词哪个更符合,或者你可以自己具备一定剖析能力。
3)、Midjourney的艺术门类划分和学习积累的过程可以让你不断对艺术世界的的了解不断加深,当你有了丰富的艺术知识,那Midjourney才是你的艺术和想象力引擎。
4)Midjourney艺术门类的划分可以是你搭建Midjourney风格知识库的高效手段,你可以将自己平时搜集到的艺术形式和优秀作品分门别类,打上一个个标签,这样长期积累,你不仅有了自己的知识库,更重要的是有了素材库,当你想要再现或者创造Midjourney作品时,去素材库中检索、复制、修改就可以创造令人惊艳的AI绘画作品。这就是我目前在做的,我的Notion风格库也是按照按照这个思路搭建的,因此我也建议你这样试试。
好了,上述就是简单介绍了Midjourney绘画的主体门类,感兴趣的朋友可以试着按照自己的理解和高频使用来进行一级、二级乃至更多级的划分,将自己的风格库搭建起来。因为我个人能力有限,如果对于这个话题,你有更好的划分方式或者解构思路,欢迎评论区交流~
Midjourney简明教程(七):你生成的是image、Photo还是picture
原本我是准备接着主题门类/艺术风格往下更新的,但每当我打开我的Notion风格库,我就没动力写下去了,因为这些几个月积攒的太多了!一级分类不是很多,但每个一级分类还有二级、三级分类。这要是一个个更新,我得写到什么时候,而且这也不是"简明教程"的定位。
思来想去,我也没有想到比较好的解决办法。我想抓紧更新完毕,将基本的东西写出来,方便对Midjourney感兴趣的朋友掌握和探索。我确实不想在Midjourney上花太多篇幅,我还想写写其他的东西,比如阅读笔记、产品运营、搞钱项目、数据分析、创投等等这些东西。年初的指定的学习计划还有很多没完成,因为学习和输出Midjourney,以及自己私人的一些事情,耽误了很多,我需要赶紧回到主线任务中去。
基于以上的一些现实考量,我准备这样做:艺术风格由于太多,需要有挑选地输出,部分会单列出来,部分以专题的形式汇总输出;其他Midjourney绘画的构成元素还是尽量以专题的形式一次性输出,争取在国庆前完成。
当然,就像前文所述,我十分建议搭建自己的风格库,并且对风格库分类,打上不同的的标签,这样经过日积月累风格库越来越丰富的时候,方便我们在创作的时候快速选择合适的风格。
我是在Notion上以画廊模式来搭建风格库,每个风格的标题是中文名,使用很简单的标签:艺术门类、英文名、使用频度,通过使用频度来排序,正文以风格的英文名开始,然后是风格的变体(如有)、风格的固定搭配模板以及相应的示例图片,示例图片以评论的方式附上提示词,如果有参考资料的附上参考资料。
下图是我的风格库的基本样式:
区别:image、picture、photo、graphic
前文中我介绍了Midjourney中的主体/艺术门类,这其中绘画和摄影是很多人用的比较多的门类,而这两种门类存在一些需要补充说明的地方。
首先,我们说说绘画。
绘画是一级门类,当然还可以继续划分,比如绘画painting、插画illustration、油画oil painting、水彩watercolor、素描sketch、涂鸦doodle等等,如果结合不同地域、不同时代、代表性艺术家,可以创作无穷无尽的作品。
这里我想说两点。其一,我们需要明白这些二级绘画形式的区别,比如什么是油画、什么是水彩、什么是素描,这些都要搞清楚,脑子里有概念,这样不至于我们在Midjourney输入框输入错误的词汇。其二,区别drawing与painting,++drawing多指使用铅笔、钢笔以及其他工具绘画,而painting多指使用颜料绘画。++
其次,我们来谈谈摄影与图片。在写Midjourney提示词的时候或者我们拆解别人作品时,我们往往会遇到这几个词:photo、picture、image。在英语里,虽然这几个词都有图片的意思,但具体含义还是有些差别。
Picture是指代某种视觉对象更通用的词汇,包括人类使用工具或颜料绘制的图片,也包括计算机创建的艺术派,以及使用相机或扫描仪创建的视觉对象(A drawing, painting, or artwork created on a computer. A picture is also describes anything created using a camera or scanner)。然而,它在日常语言中经常被用来指照片。
Photo单词是photography的简写,是由两个单词photo(代表光线)与graph(记录设备)组合而成,在感光表面(例如胶片或数字传感器)上捕获光线而创建的特定类型的图像。因此,photo特指用相机、数码相机、复印机等方式获取的图像,一般指照片。照片通常比其他图像更真实、更详细,通常用于记录现实生活中的事件或人物。
Image同样涉及范围很广,无论是 drawing, painting, graphic还是photograph,可以是数字的也可以是手工创建的。查阅资料时,有人认为其指的是电子图片,由计算机修改或更改的任何视觉对象或使用计算机创建的虚构对象(Any visual object that's modified or altered by a computer or an imaginary object created using a computer)。
graphic通常指的是工业、出版或者计算机领域的绘图,比如信息图、插图等。
当然,这些词汇还要结合上下文理解,有时候可以混用。关于这些概念的具体细节,可以参见下面的文章:
就我个人的经验来看,通常我不会使用这些词汇,甚至回避这些词汇,因为这些词汇模糊不清,无法控制结果。如果我描述的是照片,我更倾向于使用photograph或者photography;如果我描述的是插画,就直接使用illustration;如果我描述的是信息图,我就使用Infographic、Infographic illustration,诸如此类。
我之所以提出这些区别,一个是提醒大家这其中的区别,另外就是,当我们在看网上大佬的作品时,如果碰到了这些词汇,也不必意外,有些高手善于利用这些词汇生成很惊艳的作品,我们可以体会或者拆解这些作品的提示词为我所用。
Midjourney简明教程(八):punk、wave、core后缀风格专题
最近我发现很多朋友过于追求复杂的提示词写作,巴不得将各种词汇堆砌在一起。我大体能理解这些朋友的心理,但构造精美的图片与词汇的多寡关系不是很大,要不然你用Describe功能分析一下试试,在Midjourney中发挥作用的大多是那几个核心词汇,而我们堆砌上去的词汇我们以为能起作用,但实际没有。
举个例子吧,以前的版本中,摄影参数会对生成的图片产生很大的影响,但V5.2版本开始,摄影和相机参数的作用大大降低,加不加可能没啥区别。为什么会这样?因为Midjourney V5.2版本的美学系统大幅提升了图片的风格化程度,生成的图片对比度更高、饱和度更高、更艺术更高清,这很大程度压制了相机参数的影响。
除了可以用describe功能分析提示词的权重外,我个人是建议尽量以追加的方式来写提示词,从主体的或最核心的词汇开始,根据生成效果不断追加词汇,不断调整来测试结果。
这里,我想特别提醒Midjourney爱好者朋友,**++要重视基本功的训练,学习基础知识,掌握基本的常见的风格和元素,丰富自己的知识库,这也是我一直在追求的,也是写这个教程的初衷++。**我们大多数人不是艺术家,没必要追求炫酷的图片,只需要稳定地可控地生成满足日常工作和生活需要的图片即可。
今天我想介绍的就是几类风格后缀:-punk、-wave、-core ,一些词汇加上这些后缀就构成了特定流派和风格,"++Punk and core basically refer to an aesthetic built around any given topic(朋克和核心基本上是指围绕任何给定主题建立的美学)++"。
目前我还没看到公认的定义,大体指的是这些后缀所代表的风格和美学,但punk往往含有朋克的元素,比如色调更深、边缘更锐利,core则色调更浅边缘更柔和。
如果我们善于使用这些后缀,往往可以产生意想不到的风格,++甚至生造出一些风格++,这也是体现创造力的地方。来看看Reddit上别人汇总的后缀风格词汇吧
Punk风
什么是朋克
朋克是起源于20世纪70年代的英国,当时石油危机之下英国衰退经济低迷,一股以反叛为核心的青年亚文化酝酿出来。反叛、无政府、放荡不羁玩世不恭、愤怒、颓废、怪异、撕裂、成了一代年轻人的特征,莫西干头、皮革拼接残破衣服、皮肤打孔是典型的外显,随着这种反叛主流的文化的传播,朋克文化从音乐扩展到时尚、艺术、设计等众多领域。
典型的朋克细分风格
随着朋克文化渗透到其他领域,这些领域结合朋克文化形成了独特美学风格的细分,比如加密朋克、故障朋克、生物朋克、蒸汽朋克、柴油朋克、磁带朋克、石器朋克、原子朋克、真空管朋克、花朵朋克、文献朋克......
我们在Midjourney中常见的朋克风格主要有(当然你也可以尝试其他朋克风格):++赛博朋克Cyberpunk、加密朋克Cryptopunk、太空朋克AstroPunk、霓虹朋克Neonpunk、太阳朋克solarpunk、分形朋克Fractalpunk、迷幻朋克psychedelipunk、生物蒸汽朋克Biometric Steampunk、故障朋克Glitchpunk++。
上述朋克风格你可以自己在Midjourney中试试,限于篇幅有限,这里我主要介绍赛博朋克和蒸汽朋克。
- 赛博朋克
Cyberpunk,是cyber与punk的结合,起源于1980年代的科幻小说,尤其是电影《银翼杀手》、《攻壳机动部队》、《赛博朋克2077》等知名电影和动漫对推动赛博朋克风普及起到很大的作用。赛博朋克代表了人们对科技生活的极为矛盾的心理和反思,一方面人类科技突飞猛进,大众享受着科技、机器、AI和互联网带来的便利,但另一方面人们也看到科技带来的垄断危险、贫富悬殊、人口危机、环境危机、伦理危机、隐私危机等等,也即是高科技与低生活、崩坏社会的矛盾。赛博朋克元素往往有:霓虹灯牌、高科技、机器人与AI、虚拟现实、混乱衰败的街景。
Midjourney赛博朋克风格作品示例:
close up shot of a youny man,Cyberpunk aesthetic,illustration visuals --ar 1:1 --s 750 --v 5.1 --style raw
参考资料:
朋克,到底是个啥?mp.weixin.qq.com/s/xx_B0tLexNFaHK73kHFmPA编辑
朋克文化:一场精心设计的"虚无"mp.weixin.qq.com/s/HF5kKKa2d5DP5ga2L4oFFA编辑
黑化少女的时光旅行:朋克&复古的前世今生mp.weixin.qq.com/s/fkQWGdSATNs44725EqryGQ编辑
爆红出圈:为何偏偏是赛博朋克?mp.weixin.qq.com/s/YszwOW5U6zlH51DOhHB57A编辑
赛博朋克为何会成为新的破圈文化?mp.weixin.qq.com/s/F_nxGdwNQDjAF0JVanRFug编辑
浅谈赛博朋克之兴:从合成词到流行文化mp.weixin.qq.com/s/zh4PQ7267dlauM8Av3QT1A编辑
- 蒸汽朋克
Steampunk,蒸汽朋克是建立在19世纪英国维多利亚时代工业革命黄金时期的美学风格,它代表了一种人类科技突飞猛进欣欣向荣改天换地的浪漫主义,麦科文大学的英语与世界文学教授迈克·珀胥安(Mike Perschon)在他知名的博客"蒸汽朋克学者"(Steampunk Scholar)里给出了蒸汽朋克风格的三种定义:++"科技幻想"(Technofantasy)、"复古未来主义"(Retrofuturism)和"超古着风格"(Hyper-Vintage )++。
++蒸汽朋克的常见元素是黄铜管、大铆钉、蒸汽机、火车头、轮船、精巧的机器、钢铁战舰、飞艇、蒸汽弥漫的城市,这些代表了人们对那个伟大而壮美的时代怀念。++
Midjourney蒸汽朋克风格作品示例:
Biometric Steampunk Black Owl, colorful beautiful flower and gears ornate mandala abstract, illustration, line drawing, mixed media --ar 4:5 --v 5.1
参考资料:
蒸汽朋克:一首献给「机械异想」的旧日恋歌mp.weixin.qq.com/s/V5qmmrjUcPfGw5jzKpo_4A编辑
从宫崎骏到《爱死机》,他们都喜爱的"蒸汽朋克"是什么?mp.weixin.qq.com/s/w-znGZyDBFWOG8fOixIF7w编辑
Wave风
所谓wave指的是"波",具体含义我没有检索到,但我猜测这是与电子音乐相关的一种风格,并且带有复古怀旧的色彩。
在Midjourney中的wave风格有Synthwave, Chillwave, Retrowave, Vaporwave、Futurewave等等,但这里我主要介绍合成波和蒸汽波这两种。
- 合成波Synthwave
机核上的一篇帖子,合成波也称为 outrun, retrowave,"以使用合成器音色为主,添加鼓机和80年代旋律,外加些当代电子音乐的审美和技术。表达了对80年代文化的怀念,试图捕捉时代的气氛并以浪潮的形式庆祝它。",当然,合成波风格已经从音乐领域延伸到影视动画游戏以及设计领域,"++视觉效果从80年代经常看到的图形中汲取了很多灵感,比如日落图形、霓虹网格、霓虹灯、80年代的跑车、线框矢量图形、被设计成老式8位游戏的像素艺术、视频磁带、街机、商场等等",颜色上使用与80年代本身一样大胆、迷幻、鲜艳、华丽的颜色,"通常黑色和紫色等深色调为主,其中添加了蓝色或华丽的粉红色或霓虹色",现在看起来比较"土味"++。
Midjourney合成波风格示例:
A captivating Synthwave-inspired vector illustration, featuring a programmer designing a hologram of the Great Pyramid of Giza, blending a neon blue and purple color palette with retro-futuristic aesthetics, circuit patterns and geometric shapes, set in a high-tech lab, in high-resolution digital format --ar 16:9 --q 2 --s 750 --v 5
purple and blue color gradient,synthwave
- 蒸汽波Vaporwave
蒸汽波风格大体源自八九十年代的日本,反映了人们对日本经济泡沫时代顶峰到破灭期间的怀旧情愫,"拼贴、碎片和失真的迷幻氛围,如"蒸汽"般迷离升腾的颓废,迷惘空虚和无意义正在肆意蔓延。"。
根据《爱月》音乐期刊的介绍,在视觉上,蒸汽波主要包括三大元素:
++第一,粉红色、霓虹灯、网格、迈阿密海滩、汽车、棕榈树等视觉基本色调和元素,来自对80年代日本的"赛博朋克"和Synthwave复古电子音乐文化所包含的未来幻想;++
++第二,老旧电脑、任天堂游戏机、老式电视的显示屏、盒式录像带的噪波、故障画面、老式操作系统窗口和Windows自带艺术字和剪贴画,来自刚刚于80年代开始的电子网络时代中代表着"计算机"和高科技的视觉符号;++
++第三,古希腊石膏雕塑、廊柱和出现的间距较大的文字,来自日本80年代商场普遍的广告牌样式和空间内部购置古希腊石膏雕塑的习惯。++
++由此,"蒸汽波"从音乐风格发展为一套视觉艺术美学,并逐渐发展为以拼贴、虚无、幻想为特征的网络亚文化。++
上述基本概括了蒸汽波的特点,在颜色上比较好分辨,失真的粉色是典型特点。
下面是Midjourney蒸汽波风格示例:
Portrait of a beautiful woman in the style of vaporwave --ar 3:4 --s 750 --v 5.1 --style raw
参考资料:
Synthwave: 关于"合成器浪潮"音乐的一切,都在这里www.gcores.com/articles/111415编辑
「 蒸 汽 波 」 跳动的多巴胺与失落的复古未来主义mp.weixin.qq.com/s/T_vnwWM-DU5U43v0aJOL1g编辑
蒸汽波是什么波 蒸耳朵是什么膜mp.weixin.qq.com/s/NWT87zd19UC8PuTn0okmIw编辑
抖音刷屏的蒸汽波,到底是什么波?mp.weixin.qq.com/s/k3pLLJoDzzI6acGiY4KQnw
Core风
Core指的是核心,据我的绘图实践和理解,后缀加Core往往代表某种元素为主体的风格。
如果你在推特上看的大佬的作品足够多,你能看到各种以Core为后缀的词汇,比如pink-core, bubblegum-core,fairycore,happycore, tattoocore、dripcore、loudcore、green-core, jungle-core、Bubblegum-Core、Raspberry-Pink-Core、Japancore、royalcore、YellowCore, DesertCore、Cottagecore、farmcore、countrycore、bimbocore, fairycore。
这里我们举个例子,fairycore------仙境核心,提示词加上这个词汇会让人物增加仙气、精灵和轻盈的元素。
Portrait of a beautiful woman in the style of fairycore --ar 3:4 --s 750 --v 5.1 --style raw
如果将上述提示词修改一下,替换仙境核心fairycore为乡村田园核心cottagecore,那么我们会得到如下图片
如果我们替换为happycore,人物会不会很开心?
如果替换为pinkcore,图片会不会粉嘟嘟?
再举个例子, desertcore------沙漠核心,这会在生成中增加沙漠元素
A motel, minimalist photography, minimal cinema sets, astonishing composition, movie still, desertcore, sony alpha a1 --ar 16:9 --s 750 --v 5.1 --style raw
好了,以上就是punk、wave、core为代表的Midjourney风格,有兴趣的朋友可以使用日常名词加上这些后缀造词探索其他风格,看看有没有其他奇思妙想和让人眼前一亮的风格,我们下期再见~