如何利用 AI 做乘法,制作一款龙年贺卡小程序

2022 年底 AIGC 的出现,让 2023 年成为通用人工智能元年

这是最好的时代,利用 AI,之前仅能存在幻想中的事物落地成现实。

只需要寥寥几句话,就可以描绘一张斑斓的画,真实而又丰富的画。

目前 AI 生图的大模型不多,大名鼎鼎的有 Midjourney,不过它闭源,并且国内用户使用不方便

Stable Diffusion ,一款免费开源,而又强大的 AI 生图模型,正在成为 AI 绘画的宠儿。

比如这张庆祝新年的图片,正是出自 Stable Diffusion 之手:

Stable Diffusion 支持文生图 (通过提示词文字生成图片)、图生图 (通过垫图+提示词文字生成图片)、文生视频视频生成视频

如下是一个图生图的例子,通过一张手绘的垫图(左侧),生成一张真实的苹果图片(右侧):

还有比如前阵子抖音比较火的 AI 变换视频:

为了探索 Stable Diffusion 想象力的边际,在临近甲辰龙年之际,我们决定开发一款龙年贺卡小程序,效果图如下:

我们选择了一个叫做 Comfy UI 的开源框架,基于工作流的交互,让 Stable Diffusion 的编排和出图更加方便和快捷:

Comfy UI 官方介绍称之为:"最强大的 Stable Diffusion 的图形化操作界面"

👉 官网链接: github.com/comfyanonym...

虽然有 Comfy UI 加持,但在一开始,就碰壁了,无法生成文字,如下:

左边这张「龙年大吉」是我们输入给 Stable Diffusion 垫图,右边是图片是基于垫图和提示词生成的图片。

可以看到,文字根本是混乱的。

这个痛点强如 Midjourney 也无法解决,这是由于文字的特殊性

就说汉字,书体有篆书、隶书、楷书、行书、草书等,排列有从左往右、从右往左、从上往下等。

另外一种解决思路是,我们把文字也作为垫图之一,比如这张「龙年大吉」的图片:

生成结果:

这个方案似乎能走得通,但是很快又遇到麻烦,对于稍微复杂的字,生成效果就不行了,比如「甲辰臻祥」:

为了解决这个问题,加上时间的有限性,只能在产品层面做出改动,贺卡图片由模板 + 主体图片组成,模板提前预制,主体图片则由 AI 生成,不包含文字:

另外一个问题,就是涉及到人物,像手部、面部比较复杂的内容时,生成效果较差,如下小女孩的手部:

这个解决方案较多:

  1. 可以选择合适的 Stable Diffusion 模型
  2. 利用插件做手部、面部的修正
  3. 添加负面提示词(Negative Prompt)

有了如上的探索,我们终于开始我们的乘法之路。

首先是选定关于新年的元素(Element),比如龙、财神爷、灯笼、白鹤等元素。

其次是风格(Style),我们探索了十多种 Stable Diffusion 生成的风格:

Stable Diffusion 稳如老狗,各种风格都驾驭得住。

通过 <math xmlns="http://www.w3.org/1998/Math/MathML"> E l e m e n t × S t y l e Element \times Style </math>Element×Style,我们为每一个元素生成对应的风格图片。

乘法的力量是不言而喻的,在几周时间,我们为了贺卡小程序生成了上万张图片。

AIGC 之前,这绝对实现不了,能做的,只是加法,并且还需要专业的设计师。

假设一个设计师 5 分钟出一张图,一万张图片,不眠不休,至少要 34 天:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> 10000 × 5 ÷ 60 ÷ 24 = 34.7222222222 10000 \times 5 \div 60 \div 24 = 34.7222222222 </math>10000×5÷60÷24=34.7222222222

这种人力成本、时间成本,一下子就被 AI 打下来了

目前 AI 还处于早期阶段,相信随着时间推移,AI 能力会更强,应用的场景会更广,拭目以待。

目前小程序也以及正式上线,名字很有年味,叫做「画年

操作简单,选择一个钟意的模板,一键生成:

如果不满意,可以调整配图 or 祝福语:

如果你有拜年贺卡需求,不妨体验一下这款小程序,目前免费使用。

最后推荐一些好用的资源

👉 程序员楷鹏,可以在这个公众号上联系到我

👉 wukaipeng.com,上面收录个人所有的技术和英语博客,这个博客网站在 GitHub 开源,基于最新的 Docusaurus3,欢迎 star

👉 doc.starflow.tech 专门面向中文的提示词工程指南,同样开源,一起学习进步

相关推荐
8Qi822 分钟前
深度学习(鱼书)day08--误差反向传播(后三节)
人工智能·python·深度学习·神经网络
wow_DG31 分钟前
【PyTorch✨】01 初识PyTorch
人工智能·pytorch·python
海绵波波10743 分钟前
解读LISA:通过大型语言模型实现推理分割
人工智能·语言模型·自然语言处理
昨日之日20061 小时前
FLUX.1 Kontext Dev V2版 - 消费级显卡(6G显存)畅玩的AI修图神器 支持批量 支持多图融合编辑 支持50系显卡 一键整合包下载
人工智能
海森大数据1 小时前
神经网络“开窍”时刻:从死记位置到理解意义的语言奇点
人工智能·深度学习·神经网络
贾全1 小时前
Transformer架构全解析:搭建AI的“神经网络大厦“
人工智能·神经网络·ai·语言模型·自然语言处理·架构·transformer
这是一只菜狗啊2 小时前
使用神经网络与5折交叉验证进行基因组预测:基础知识指南
人工智能·深度学习·神经网络
缘友一世2 小时前
Agents-SDK智能体开发[1]之入门
人工智能·agent·agents_sdk
行然梦实2 小时前
世代距离(GD)和反转世代距离(IGD)详析
人工智能·算法·机器学习·数学建模
code bean2 小时前
【Halcon 】Halcon 实战:如何为 XLD 模板添加极性信息以提升匹配精度?
人工智能·计算机视觉