腾讯重磅开源!混元图像 3.0 图生图真香!

这是苍何的第 484 篇原创!

大家好,我是苍何。

要说近两天最火的是什么,那就是元宝派了,我的几十个群,从早到晚在发红包链接,导致我的未读消息直接飙到了上万条,好家伙。

昨天也分享了几百个邀请码,建了不少元宝派,我发现大家在派里,经常会用元宝来生图,动不动就是好几个人同时@元宝,发现元宝生图还挺快的。

而且效果也比之前好了不少,我估摸着是升级了混元模型的生图能力了,不然扛不住元宝派友们的热情,噼里啪啦两下卡住,体验就不好了。

稍微查了下,果然不出所料,「腾讯悄悄发布并开源了混元图像 3.0-Instruct 模型」,现在元宝上生图,用的就是这个最新的混元模型。

我看了官方说明,混元图像 3.0-Instruct 模型有以下的能力提升:

支持图片编辑和多图融合能力,指令遵循效果稳定,生成的图片一致性高、真实感强、情绪表现力佳,生成速度获得明显提升.

为了验证下真假,我也对该模型进行了一轮拷打测试,下面开整。

除了元宝里面,我发现,在腾讯混元官网也已经上线了这个新模型,我就先在官网开始吧。

既然是图生图模型,熟门熟路,那就直接开测吧。

提示词:将这张张"白天拍摄的枯树"转变为"夜晚发光的阿凡达风格生命之树"

很快就生成了一张效果不错的「生命之树」:

光影的烘托和表现力上还是非常到位的。

接下来继续给提示词:将奔跑的人转变为由流水组成的半透明人影

提示词:转换为吉普力风格

基本上生成最快十几秒就生成了,生成速度上和表现力确实提升很大。

不像🍌pro,生成最少也得等个几十秒,等待的过程非常痛苦。

再来了一个小马连环画,同样也是很快就生成出来,一致性保持的不错。

提示词:以这个小马为主角,创作一个具有9张图片的绘本故事,适合三岁小朋友阅读,需要有简单的文字,方便家长给小朋友讲故事

前几天去横道河子被美哭了,拍了一些照片,里面有路人,让它帮我P掉并美化一下

提示词:帮我把这张图片中的人P掉,并让整个图片看起来像有阳光照射的感觉

去砖石海的时候想拍一个落日时分的图片,赶时间没拍到,于是让它P一下:

提示词:这张人躺在冰块堆中的照片,帮我把这张图转化为远景俯拍,在人物周围散落着成片的冰块,营造人躺在冰块群的感觉,黄昏中蓝调的砖石海的感觉

瞬间就有那种感觉了好吧。

接下来又测试了一下风格变换能力

给它一个美女,让它帮忙变换风格

提示词:请给这个女生画上四种不同的妆容,并匹配相应的穿搭风格和环境

人物一致性保持的不错。

再让它针对一些服装单品,给出三套穿搭,给老婆看了,直呼牛掰,再也不用发愁怎么搭配单品了。

提示词:这件白色的毛衣,毛衣拉链拉下来一些可变成翻领毛衣,请帮我想三个穿搭方案,女生

再来个萌萌哒的小企鹅吧

提示词:以这个萌萌的企鹅为原型,设计三个Q版的企鹅图像,分别为毛线风格、像素风格、吉普力风格

我喜欢鸣人,想试试图片变手办的感觉

提示词:把鸣人的这张图做成3D手办

再来试试人物画像变真人

提示词:请把XXX的画像变成立体的真人

让他们来个合照吧

提示词:让图1和图2的人物自拍,风格换成真人写实风格,背景换成在故宫大殿里面拍摄,有自拍的模糊感

再来试试多图融合的能力

提示词:给图一小猫穿上图二,图三喜庆的衣服和围巾,背景是中式的温馨家庭客厅

一通测下来,还挺兴奋的。

首先,在文字理解能力上面,有了很大的进步,我的提示词很口语化也不专业,基本上一次就能成功;

第二,在生成速度上,非常快速,简单一点的,十几秒甚至几秒钟就能生成出来,复杂一点的不到一分钟也能出来;

第三,图片可用性很高,不用重复抽卡;

最重要的是目前还免费免费,这就非常爽了。

腾讯这一波,也是攒足了劲儿,发了 10 个亿的红包,让更多人进来元宝,生图是最重要的场景。

对于 C 端用户来说,最不能接受的就是等待,腾讯必须在生图速度上下苦功夫,不然,辛辛苦苦拉的用户,却因为生图慢,效果差,而不断吐槽,就得不偿失了。

至少目前,我在我的十几个派群里,还没看到有人吐槽生图慢或者不好的。

大家也在探索更多的玩法了。

最后总结下,混元图像 3.0-Instruct 模型在指令遵循,图像一致性,生成速度上表现不错。

好了,感谢你喜欢我的文章,我们下一期见。

相关推荐
Raink老师2 小时前
【AI面试临阵磨枪-70】Agent 系统如何做分布式调度、跨服务协作、故障恢复?
人工智能·面试·职场和发展
tedcloud1232 小时前
RTK部署教程:构建稳定的AI Workflow环境
服务器·javascript·人工智能·typescript·ocr
Raink老师2 小时前
【AI面试临阵磨枪-71】如何用 AI 优化推荐系统、内容审核、广告创意、搜索体验?
人工智能·面试·职场和发展
AI医影跨模态组学2 小时前
Biomarker Res(IF=11.5)安徽医科大学第一医院:基于机器学习的放射组学模型:子宫内膜癌患者的预后预测及机制探索
人工智能·深度学习·论文·医学·医学影像·影像组学
ftpeak3 小时前
Mooncake:以 KVCache 为中心的分离式 LLM 服务架构
人工智能·ai·架构·ai编程·ai开发
Terrence Shen3 小时前
Hermes agent的tools是怎么落地应用的系列
人工智能·llm·agent·hermes
Raink老师3 小时前
【AI面试临阵磨枪-72】电商全场景 AI Agent 设计(商品咨询 / 订单 / 物流 / 售后 / 退款)
人工智能·面试·职场和发展
仙女修炼史3 小时前
CNN更看重Texture还是shape:imagenet-trained cnns are biased
论文阅读·人工智能·cnn
视***间3 小时前
视程空间 AIR SC6N0-C-MB NX 16GB 规格详解与机器人/机器狗适配说明
人工智能·机器人·边缘计算·机器狗·ai算力·具身机器人·视程空间
视***间3 小时前
小身板・强算力・全适配 —— 视程空间 AI 算力开发板如何完美适配机器人 / 机器狗
人工智能·机器人·边缘计算·ai算力·视程空间·算力开发板