ChatGPT“与图对话”初体验

ChatGPT"与图对话"初体验

ChatGPT发布语音和图像能力重大更新:要点解读、应用畅想与原文翻译

中提到:ChatGPT开放了"与图对话"的多模态能力,用户可以上传一张图片或多张图片,与ChatGPT展开基于图片的对话。想不到这么快就开放了:

ChatGPT对图片的理解能达到什么水平呢?让我们一起来测试。


单图理解:非常精确

我上传了一张我和女儿在一个室内动物园戴着动物面具的合影,让ChatGPT理解这张图片:

ChatGPT的描述是下面这样的:

它详细描述了:

  • 森林背景墙
  • 我的穿着打扮
  • 女儿的穿着打扮
  • 父女俩的动作
  • 整个画面的氛围

这理解不能说是特别准确,那简直是十分精确!那个传神的表情"✌️"真的赞!

然后可以让ChatGPT以此图片为蓝本,讲一个你想要的故事:

ChatGPT能否生成图像呢?

遗憾的是,无论是生成图片还是修改上传的图片,ChatGPT暂时还做不到。

ChatGPT能注意到更多的细节(那个插座)吗?

看来它是注意到了那个墙上的插座,而且知道它存在安全隐患,很赞!

它能注意到右上角那不太容易分辨的蜘蛛网吗?

看来是没有注意到。我提示一下,会如何?

经过提示,它注意到了蜘蛛网,不过它并不百分之百确认。看来这个部分的识别精确度比较低。

还能进一步理解吗?

嗯,能理解人物关系。

对背景森林的类型也能做比较准确的推断。

这就有点强人所难了!

总的来说,ChatGPT对单张图片的理解是相当准确的,无论是场景描述、人物关系,还是整体氛围、局部细节。


艺术风格识别:一半一半

对感兴趣的绘画作品,可以让ChatGPT做解释:

这是它对其艺术风格和内容的描述:

这的确是马赛克风格的绘画。它也知道不同画家的风格流派:

试试中国风:

不错,就是工笔画。

也有不尽人意的地方,比如将下面的"大和绘"风格的作品识别成"浮世绘"

对于"达达主义"风格并没有直接叫出其名字:

我还尝试过现实主义、立体主义、世俗画、哥特主义、奥托尼亚等不同风格的绘画作品,ChatGPT的水平基本上在半对半错之间。对于风格强烈的画风(比如立体主义、现实主义等)识别率高;对于风格不那么强烈或者比较细分的流派(比如风俗画,被误认为是洛可可),识别率低。

因此在艺术鉴赏方面,ChatGPT还需要进一步提高。


从图片到代码:差强人意

网传在Twitter上有人给ChatGPT喂一张数据看板的截图,它直接生成了对应的代码。我也在这方面试了试,看看ChatGPT能在这方面做到什么程度。

对于想要给一个长截图就生成整个页面代码的想法,我劝大家还是现实一点。这是我提供给ChatGPT的一个网页长截图:

然后让它"这是一个产品的landing page,请你生成一个html文件,来复刻这个网页",当然它很乖地给出了html代码:

我满怀希望地打开,结果效果是这样的😱:

不能说是一模一样,简直是毫无相似之处。估计要通过非常多轮的对话,才能有一个稍微可用的版本。

然后我对任务做了简化,只让它复刻其中的一部分:

这下得到的版本就好多了,加上图标就基本可用了:

对于更加复杂一点的数据看板:

多轮对话之后,可以得到下面的版本:

嗯,还算OK,调调能用。


多图理解:还挺不错的

ChatGPT支持传多张图片(最多是四张)

那多图的理解能力如何呢?

我先传了一张女儿画的简笔画以及一张剪纸后的简笔画:

ChatGPT的理解挺到位的:

当我上传四张图片之后,会发现上传的三张和第四张图片丢失(可能是服务不稳定造成的,我试过好几次都是如此)

ChatGPT果然没有收到第三张和第四张图片

如果仅仅就两张图片,它可以讲一个"自以为是"的故事


小结

就目前的体验来看,ChatGPT的识图能力:

  • 单图理解能力非常强悍
  • 艺术风格识别一半一半
  • 从图片生成代码差强人意
  • 多图理解还挺不错

期待ChatGPT多模态能力的不断增强!

【完】


【往期相关】

ChatGPT发布语音和图像能力重大更新:要点解读、应用畅想与原文翻译

【AI产品】Podwise:AI助我听播客

相关推荐
热爱跑步的恒川6 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
火山引擎边缘云14 小时前
创新实践:基于边缘智能+扣子的智慧婴儿监控解决方案
物联网·aigc·边缘计算
算家云14 小时前
如何在算家云搭建Aatrox-Bert-VITS2(音频生成)
人工智能·深度学习·aigc·模型搭建·音频生成·算家云
AI绘画小3320 小时前
【comfyui教程】comfyui古风一键线稿上色,效果还挺惊艳!
人工智能·ai作画·stable diffusion·aigc·comfyui
AI绘画月月21 小时前
【comfyui教程】ComfyUI有趣工作流推荐:快速换脸,创意随手掌握!
人工智能·ai作画·stable diffusion·aigc·comfyui
AI绘画咪酱1 天前
【AI绘画】AI绘图教程|stable diffusion(SD)图生图涂鸦超详细攻略,教你快速上手
人工智能·ai作画·stable diffusion·aigc·midjourney
过去式的马马马1 天前
文多多AIPPT
ai作画·aigc·文心一言·ai编程·dall·e 2
逐星ing1 天前
【AIGC】腾讯云语音识别(ASR)服务在Spring Boot项目中的集成与实践
aigc·腾讯云·语音识别
花千树-0101 天前
Milvus - GPU 索引类型及其应用场景
运维·人工智能·aigc·embedding·ai编程·milvus
DisonTangor2 天前
腾讯混元3D-1.0:文本到三维和图像到三维生成的统一框架
人工智能·3d·aigc