人工智能绘画的进化:大模型图像生成能力横评

近年来,随着AI技术的飞速发展,各类大模型在图像生成领域展现出惊人的创造力。从早期GAN生成的模糊图像,到如今扩散模型带来的高清作品,AI绘画技术正以肉眼可见的速度迭代更新。基于大模型的能力,我们可以非常轻松的创造需要的图片。很多人还停留在娱乐的领域,实际上基于大模型可以生成在工作中用到的很多插图,甚至很多论文都在使用大模型生成插图。

今天我们就看看大模型的能力到底有多强。同时,本文将对比一下国内外的大模型生成图片的能力的差异,以便于大家选择适合自己的大模型工具。

为了公平起见,我们采用相同的提示词生成图片,本文使用的提示词如下:

生成一张图,描述一下数据压缩的核心技术,适合手机阅读,采用手绘彩色风格。

提示词很简单,接下来我们看看不同的大模型生成效果怎么样。

豆包

豆包直接给生成了4张图片,可谓买一送三。从内容上,介绍了数据压缩的类型和算法。从类型上分为有损压缩和无损压缩。压缩算法包括哈夫曼编码等算法。

四张图介绍的内容大体相同,只是展现的形式略有差异。接下来我们看一个放大图。

元宝

元宝也是直接给生成了4张图片。从内容上,介绍了数据压缩的类型和算法。但是每张图介绍的内容不太一样,展现形式也不太相同。同时,元宝还搞了手机边框。

这里有一个缺点是,生成的图中有些乱码,我们可以看一下这个放大图。

千问

同样是买一送三。从内容上,千问与豆包类似,介绍了数据压缩的类型和算法。四张照片的内容一样,只是展现形式不同。

Gemini

Gemini是谷歌的大模型,最近网上比较流行。从内容上来说与前面的大模型差异不大。也是包含数据压缩的类型和算法等内容。从类型上分为有损压缩和无损压缩。压缩算法包括哈夫曼编码等算法。仔细观察会发现这张图比前面的要细腻一些,比如只是提到了哈夫曼编码等名词,而这样图则有更细的配图,简要展示了算法的原理。

ChatGPT

ChatGPT作为大模型的鼻祖,我们看看他的生成效果。大家可以自行对比一下。

相关推荐
深度森林2 分钟前
医学应用“手术机器人导航”高价值专利案例:基于计算机视觉的临床手术机器人导航规划方法
人工智能·计算机视觉·机器人
许彰午3 分钟前
# OCR与语音识别——政务AI的两个实用场景
人工智能·ocr·语音识别
xixixi777773 分钟前
《机密计算破局政务金融、截图工具漏洞泄露NTLM哈希、智能体仿冒日增200+:AI安全的三场“攻防战”》
人工智能·安全·ai·金融·大模型·政务·合规
技术路线图7 分钟前
教学智慧的数字围城:当专业积累遭遇人工智能认知屏蔽
人工智能·搜索引擎
广州创科水利8 分钟前
广州创科:以硬核科技与全栈能力,守护边坡安全监测防线
大数据·网络·人工智能
kishu_iOS&AI9 分钟前
NLP - Transformer原理解析
人工智能·自然语言处理·transformer
啦啦啦_999911 分钟前
2. PyTorch框架
人工智能·pytorch·python
木雷坞11 分钟前
AI Coding Agent 工具链部署:MCP Server、Docker Gateway 和镜像预检
人工智能·容器
Black蜡笔小新16 分钟前
自动化AI算法训练服务器DLTM企业级AI模型工作站构筑企业AI自主可控新模式
人工智能·算法·自动化
硅基流动17 分钟前
硅基流动上线百度 ERNIE-Image
人工智能·百度