003、方法一进阶：AI绘画与短视频制作——用Midjourney/Stable Diffusion接单赚钱

003、方法一进阶：AI绘画与短视频制作------用Midjourney/Stable Diffusion接单赚钱

一个让我半夜爬起来改代码的bug

上周一凌晨两点，我盯着屏幕上那张"赛博朋克风格咖啡馆"的图，差点把咖啡泼到键盘上。客户要的是"霓虹灯管反射在湿漉漉的柏油路上，带点王家卫电影那种抽帧感"，Midjourney跑了二十多轮，要么灯管颜色不对，要么路面干得像沙漠。更离谱的是，Stable Diffusion生成的图里，咖啡杯上的logo居然镜像反了------这要是交出去，甲方爸爸能把我拉黑到2049年。

后来怎么解决的？不是换模型，不是调参数，而是把"湿漉漉"这个prompt拆成了"积水+倒影+模糊边缘+冷色调高光"四个子元素 ，再配合ControlNet的深度图控制。这个坑让我意识到：AI绘画接单赚钱，核心不是你会用工具，而是你会翻译需求。

接单前必须搞懂的三个"潜规则"

别急着注册账号。先想清楚你卖的是什么------不是图片，是解决方案。客户说"要一张科技感封面"，你给一张蓝色背景加几个光效，那是新手。老手会问：用在公众号还是视频封面？目标用户是程序员还是投资人？需要留白放标题吗？这些信息比任何prompt都值钱。

我踩过的第二个坑：别用Midjourney直接出最终图。MJ的随机性太强，适合灵感发散，但商业交付需要确定性。正确流程是：先用MJ出3-5个方向草图，让客户选风格，再用Stable Diffusion精修细节。SD的ControlNet + T2I-Adapter组合，能让你像Photoshop一样控制构图、姿势、景深------这才是赚钱的硬功夫。

第三个潜规则：版权问题比技术问题更致命。Midjourney的付费版生成的图，商用版权归你，但Stable Diffusion用的模型如果包含受版权保护的风格（比如某位画家的笔触），商用有风险。我的做法是：所有商用图只用自己微调的LoRA模型，或者用SDXL的base模型+公开域风格。别贪图省事用网上扒的"迪士尼风格"模型，一封律师函够你白干三个月。

实操：从0到1跑通一个"短视频封面"订单

假设客户需求：一个知识类短视频封面，主题是"AI如何改变教育"，要求有科技感、人物半身像、背景带数据流。

第一步：Midjourney出方向（耗时15分钟）

prompt结构：[主体] + [环境] + [风格] + [技术参数]

复制代码

/imagine a teacher in a futuristic classroom, holographic data streams around, cinematic lighting, 8k, --ar 16:9 --v 6.0

这里有个技巧：加--style raw可以降低MJ的"美化滤镜"，让图更接近真实摄影，方便后续SD精修。别用--stylize 1000那种高值，出来的图太"AI味"，客户一眼就能看出来。

生成4张图，选一张构图最干净的。注意：人物手指、眼镜反光、背景文字------这三个地方最容易出bug，先截图发给客户确认大方向。

第二步：Stable Diffusion精修（耗时40分钟）

把MJ的图拖进SD的img2img，用ControlNet的Canny边缘检测锁定构图。关键参数：

Denoising strength：0.4-0.6（太高会偏离原图，太低修不了细节）
ControlNet权重：1.0（别低于0.8，否则边缘控制失效）
模型：用Realistic Vision V5.1（写实风）或DreamShaper（插画风），根据客户需求选

这里踩过坑：别直接用MJ的图做img2img的输入 。MJ的图分辨率通常不高，而且有压缩伪影。正确做法是：先用SD的Hires.fix放大到2K，再用img2img修细节。我习惯用4x-UltraSharp这个upscaler模型，比内置的放大效果好一个量级。

第三步：修bug（最耗时的环节）

客户反馈：人物左手看起来像六根手指。这是SD的老毛病，解决方案：

用inpaint遮住手部区域
prompt写hand, five fingers, natural pose, detailed skin texture
负面prompt加bad anatomy, extra fingers, mutated hands
迭代3-5次，直到手指数量正确

别指望一次成功。我一般会生成8-12张候选图，挑一张最自然的，再用Photoshop修一下指甲和关节阴影。记住：AI是辅助，不是替代。最终交付的图，至少要有20%的手工修正。

第四步：交付与定价（别犯傻）

一张短视频封面，我的报价是200-500元，取决于修改次数。给客户的交付物包括：

原始PNG（带透明通道，方便他们加标题）
分层PSD（背景、人物、光效分开）
使用说明（字体版权、AI生成声明）

别只给一张JPG。专业感体现在细节：文件名用项目名_版本号_日期，别叫final_v3_真的最终版.png。我见过太多人因为文件名不规范被客户质疑专业度。

赚钱的三种模式，选一种深耕

模式一：批量接单（适合新手）

在猪八戒、淘宝、闲鱼上接"AI绘画代做"，单价50-100元/张，靠量取胜。缺点是累，而且容易被压价。我的建议：只接"有明确参考图"的单子，拒绝"随便画个好看的"这种需求------这种客户最后一定会让你改到崩溃。

模式二：垂直领域定制（适合有行业经验的人）

比如专门做"电商产品图"或"游戏角色立绘"。我认识一个朋友，只接"宠物用品电商图"，用LoRA训练了20种常见猫狗品种，出图效率是别人的3倍，单价能到500元/张。核心是：用垂直数据训练专属模型。训练一个LoRA大概需要20-50张高质量图片，成本不到200元，但能让你在细分领域建立壁垒。

模式三：短视频全流程外包（利润最高）

不只是做封面，而是帮客户完成"AI生成素材+剪辑+配音"的完整短视频。比如知识类账号，用AI生成动态图表、虚拟主播、背景动画。报价可以到2000-5000元/条。难点在于：你需要懂一点剪辑（剪映或Premiere），会一点配音（ElevenLabs或Azure TTS），以及能控制AI生成内容的连贯性。

我目前主要做模式三。上周刚交付一个"AI科普短视频"系列，10条视频，报价3万。客户觉得贵？我给他看了用传统方式做一条视频的成本：设计师2000元+动画师3000元+配音500元，还不算修改时间。AI把成本压到了1/3，但我的利润反而更高------因为稀缺性。能同时搞定AI绘画、视频生成、配音剪辑的人，市场上没几个。

个人经验：别让工具定义你的价值

最后说点实在的。很多人学AI绘画，第一反应是"我要学会所有参数"。错。参数是死的，需求是活的。我见过用Midjourney只会打/imagine的人，靠帮客户翻译需求（把"要那种很酷的感觉"转成精确的prompt），一个月赚两万。也见过精通ControlNet所有模型的人，因为不会跟客户沟通，单子越接越少。

你的核心能力不是操作AI，而是：

把模糊需求翻译成精确的技术参数
用AI快速试错，找到客户真正想要的
在AI生成的基础上做人工优化，提升交付质量

工具会过时，Midjourney可能被替代，Stable Diffusion也会更新换代。但"理解需求+解决问题"的能力，永远值钱。

别把时间花在学新模型上。把时间花在理解你的客户上。下次接单前，先问自己：这个客户真正想要的是什么？是"一张好看的图"，还是"能让他视频播放量翻倍的封面"？想清楚这个，你的报价可以翻三倍，而且客户还会觉得物超所值。

（对了，开头那个赛博朋克咖啡馆的bug，最后怎么解决的？我把"湿漉漉"拆成"积水+倒影+模糊边缘+冷色调高光"后，又加了一个--no dry, dusty的负面prompt，然后手动在PS里给路面加了反射图层。客户很满意，后来成了长期合作。你看，有时候解决问题的方法，不在AI里，在AI外面。）