基于腾讯云HAI探索AI生成小说图片之道

前言

腾讯云最近推出了高性能应用服务 HAI,这个服务可以在几分钟之内就可以一键部署多种 AIGC 场景,比如AI作画、AI视频、AI写作等。本文就基于HAI部署一个AI 绘画环境 ,实现AI生成小说图片的功能。

HAI介绍

高性能应用服务(Hyper Application Inventor,HAI)是一款面向 AI 和科学计算的 GPU/NPU 应用服务产品,提供即插即用的强大算力和常见环境。它可以帮助中小企业和开发者快速部署语言模型(LLM)、AI 绘图、数据科学等高性能应用,原生集成配套的开发工具和组件,大大提升应用层的开发生产效率。

相比使用GPU 云服务器,HAI有以下几点优势:

  1. 不需要了解 GPU 型号,不用选择机型。基于 AI 应用,自动匹配合适套餐。
  2. 不需要自行部署驱动、CUDA、Python、Notebook 等环境依赖。分钟级快速启动,直接交付可用应用环境。
  3. 打包 GPU、云硬盘、带宽及网络,直接一键启动
  4. 提供 WebUI 可视化连接方式,一键进入服务,不需要具备运维知识。
  5. 跨境线路自动择优,支持学术资源平台访问、下载加速
  6. 支持关机不计费 、制作自定义应用等功能。用户可根据自身使用需求动态开关机,节省成本,长期使用。
  7. 分钟级自动构建LLM、AI作画等应用环境。提供多种预装模型环境,包含如StableDiffusion、ChatGLM等热门模型。

部署AI作画应用

开通HAI服务

购买成功后就可以移步HAI控制台进行授权开通。

一键部署应用 (StableDiffusion WebUI)

HAI开通后,部署一个AI应用就非常简单了。这里创建一个AI作画应用 StableDiffusion WebUI,只需要两步:

  1. 在算力管理界面点击"新建"按钮。
  2. 选择 StableDiffusion WebUI 模型,并按照需求选择一个地域和算力方案。

"新建"按钮如下图。 选择 StableDiffusion WebUI 进行购买。

购买成功后会看到创建中的应用,等待1分钟即可创建成功。

当状态为运行中时,即可通过点击下图红框进入 StableDiffusion WebUI 界面。

StableDiffusion WebUI 介绍

Stable Diffusion WebUI是一个基于Stable Diffusion模型的图形界面工具(如下图),通过这个WebUI,用户可以输入他们想要的文本描述,然后系统会根据这些描述自动生成相应的图像。

提示词

提示词对于生成图片至关重要,通过提示词可以描述希望生成的图像的内容、风格、画质、画风以及画面中不想出现的内容。

画质提示词一般为:

(masterpiece:1.2), best quality,masterpiece,extremely detailed wallpaper,highers,perfect lighting,8k wallpaper,

意思是生成高质量的、完美的、极其详细的画质。

其中()中的数字代表该提示词出现在画面中的权重。

如果想要生成二次元的风格,可以填写anime, comic ,gameCG,等提示词。

如果想要生成的画像更逼近人类,那么可以填写 photograph, photorealistic等提示词。

如果喜欢宫崎骏的画风,那么可以填写studio ghibli提示词。

总之,可以按照自己喜欢的风格、画风去填写相关提示词。

生成具体的内容同样需要提示词去描述,比如 人物、年龄、发型、头发颜色、情绪表情、衣服装束、做什么事等等。

而画面中不想出现的内容也称之为负面提示词,比如:

NSFW, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality,((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),

其中NSFW为不要出现不适宜工作场所的内容

提示词插件

当然,如果对提示词的格式、语法不是很熟悉,可以在StableDiffusion WebUI安装一个插件提示词,这样在页面上就可以直接选择想要生成的提示词了。

安装提示词插件如下图,将 github.com/Physton/sd-... 复制到网址输入框直接安装即可。

在重启WebUI后就可以看到下图这样的中文提示词框,大家可以直接选择人物、服饰、表情动作等提示词。

采集器

在Stable Diffusion中,采样器是用于生成图像的一种技术或方法。它决定了模型如何从潜在空间中抽样并生成图像,因此,采样器在生成图像的过程中起着关键作用。

Stable Diffusion支持多种采样器,包括Euler、Euler a、LMS、Heum Euler、DPM和DDIM等。每种采样器都有其独特的特性和运算速度,可以根据应用场景进行选择。

AI 生成小说图片

接下来,基于高性能应用服务 HAI搭建的 StableDiffusion WebUI 生成小说图片。

小说场景描述

这里举例一个简单的小说场景:

程序员结束一天的工作后,在楼下随意吃了个便饭,巧遇同事,便友好地打了声招呼。饭后,他挤上了熙熙攘攘的地铁,踏上了回家的路。

场景分镜

按照场景描述,可以想象出几个镜头:

  1. 程序员穿着衬衫和裤子,背着背包走在人来人往的路上。
  2. 程序员穿着衬衫坐在小吃摊前,面前是一碗热腾腾的面条。
  3. 一位穿着制服的年轻女同事笑着和程序员打招呼。
  4. 许多人排队等公交的画面。
  5. 程序员回到家的画面。

根据提示词生成图片

根据第一个镜头,可以填写相关的提示词,比如画面中有高楼大厦、人来人往的人群、衬衫和裤子、程序员正在走路等。

这里选择生成宫崎骏的画风,加上画质、画风、画面描述等,完整的提示词如下:

(masterpiece:1.2), best quality,masterpiece,extremely detailed wallpaper,highers,perfect lighting,8k wallpaper,studio ghibli, 1boy, shirt, pants, backpack, sunny, office building, after work, walking, bustling with pedestrians,

将提示词和负面提示词分别填入,点击生成即可,如下图。

其余几个镜头的画面描述内容分别为:

  • 1boy, shirt, pants, backpack, a bowl of noodles,food stand,
  • a bowl of noodles,(1girl),smile,waving,business_suit,upper_body,front view,looking_at_screen,
  • (bus),((crowd)),shirt,pants,backpack,arm_up,holding_bag,
  • backpack, cat, floor, window, living room

将这些提示词依次填入进行生成,就完成了通过AI生成小说图片的工作了。

最后,展示。

镜头1 镜头2 镜头3 镜头4 镜头5

总结

借助高性能应用服务 HAI,非专业人员也能轻松部署AI绘画应用,真正实现人人皆可用AI,人人理解大模型。开发人员更是可以专注于业务场景,也不用操心GPU、硬盘、带宽这些细节了。

相关推荐
像污秽一样12 分钟前
动手学深度学习-深度学习计算-1层和块
人工智能·深度学习
迪小莫学AI16 分钟前
精准识别花生豆:基于EfficientNetB0的深度学习检测与分类项目
人工智能·深度学习·分类
编程迪29 分钟前
自研PHP版本AI口播数字人系统源码适配支持公众号H5小程序
人工智能·数字人系统源码·口播数字人·数字人小程序·数字人开源
Anna_Tong33 分钟前
人工智能的视觉天赋:一文读懂卷积神经网络
人工智能·神经网络·cnn
ZHOU_WUYI1 小时前
adb 安装教程
人工智能·adb
weixin_443042651 小时前
信息系统管理师试题-转型升级
人工智能·信息系统项目管理师
CV-King2 小时前
旋转框目标检测自定义数据集训练测试流程
人工智能·目标检测·计算机视觉
无问社区2 小时前
无问社区-无问AI模型
人工智能·web安全·网络安全
Jacen.L2 小时前
探究音频丢字位置和丢字时间对pesq分数的影响
人工智能·语音识别
DashVector3 小时前
如何通过HTTP API插入或更新Doc
大数据·数据库·数据仓库·人工智能·http·数据库架构·向量检索