ChatGPT“与图对话”初体验

用户73667962507742023-10-04 9:58

ChatGPT"与图对话"初体验

ChatGPT发布语音和图像能力重大更新：要点解读、应用畅想与原文翻译

中提到：ChatGPT开放了"与图对话"的多模态能力，用户可以上传一张图片或多张图片，与ChatGPT展开基于图片的对话。想不到这么快就开放了：

ChatGPT对图片的理解能达到什么水平呢？让我们一起来测试。

单图理解：非常精确

我上传了一张我和女儿在一个室内动物园戴着动物面具的合影，让ChatGPT理解这张图片：

ChatGPT的描述是下面这样的：

它详细描述了：

森林背景墙
我的穿着打扮
女儿的穿着打扮
父女俩的动作
整个画面的氛围

这理解不能说是特别准确，那简直是十分精确！那个传神的表情"✌️"真的赞！

然后可以让ChatGPT以此图片为蓝本，讲一个你想要的故事：

ChatGPT能否生成图像呢？

遗憾的是，无论是生成图片还是修改上传的图片，ChatGPT暂时还做不到。

ChatGPT能注意到更多的细节（那个插座）吗？

看来它是注意到了那个墙上的插座，而且知道它存在安全隐患，很赞！

它能注意到右上角那不太容易分辨的蜘蛛网吗？

看来是没有注意到。我提示一下，会如何？

经过提示，它注意到了蜘蛛网，不过它并不百分之百确认。看来这个部分的识别精确度比较低。

还能进一步理解吗？

嗯，能理解人物关系。

对背景森林的类型也能做比较准确的推断。

这就有点强人所难了！

总的来说，ChatGPT对单张图片的理解是相当准确的，无论是场景描述、人物关系，还是整体氛围、局部细节。

艺术风格识别：一半一半

对感兴趣的绘画作品，可以让ChatGPT做解释：

这是它对其艺术风格和内容的描述：

这的确是马赛克风格的绘画。它也知道不同画家的风格流派：

试试中国风：

不错，就是工笔画。

也有不尽人意的地方，比如将下面的"大和绘"风格的作品识别成"浮世绘"

对于"达达主义"风格并没有直接叫出其名字：

我还尝试过现实主义、立体主义、世俗画、哥特主义、奥托尼亚等不同风格的绘画作品，ChatGPT的水平基本上在半对半错之间。对于风格强烈的画风（比如立体主义、现实主义等）识别率高；对于风格不那么强烈或者比较细分的流派（比如风俗画，被误认为是洛可可），识别率低。

因此在艺术鉴赏方面，ChatGPT还需要进一步提高。

从图片到代码：差强人意

网传在Twitter上有人给ChatGPT喂一张数据看板的截图，它直接生成了对应的代码。我也在这方面试了试，看看ChatGPT能在这方面做到什么程度。

对于想要给一个长截图就生成整个页面代码的想法，我劝大家还是现实一点。这是我提供给ChatGPT的一个网页长截图：

然后让它"这是一个产品的landing page，请你生成一个html文件，来复刻这个网页"，当然它很乖地给出了html代码：

我满怀希望地打开，结果效果是这样的😱：

不能说是一模一样，简直是毫无相似之处。估计要通过非常多轮的对话，才能有一个稍微可用的版本。

然后我对任务做了简化，只让它复刻其中的一部分：

这下得到的版本就好多了，加上图标就基本可用了：

对于更加复杂一点的数据看板：

多轮对话之后，可以得到下面的版本：

嗯，还算OK，调调能用。

多图理解：还挺不错的

ChatGPT支持传多张图片（最多是四张）

那多图的理解能力如何呢？

我先传了一张女儿画的简笔画以及一张剪纸后的简笔画：

ChatGPT的理解挺到位的：

当我上传四张图片之后，会发现上传的三张和第四张图片丢失（可能是服务不稳定造成的，我试过好几次都是如此）

ChatGPT果然没有收到第三张和第四张图片

如果仅仅就两张图片，它可以讲一个"自以为是"的故事

小结

就目前的体验来看，ChatGPT的识图能力：

单图理解能力非常强悍
艺术风格识别一半一半
从图片生成代码差强人意
多图理解还挺不错

期待ChatGPT多模态能力的不断增强！

【完】

【往期相关】

ChatGPT发布语音和图像能力重大更新：要点解读、应用畅想与原文翻译

【AI产品】Podwise：AI助我听播客

上一篇：Maven - MacOS 快速安装

下一篇：互联网Java工程师面试题·Zookeeper 篇·第二弹

热门推荐

012026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 02GitHub 镜像站点 03AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 042026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？05AI科技热点日报 | 2026年07月01日 062026 年 AI 大模型 & AI 编程工具实战全总结 072026 AI 编程工具选型横评：Cursor / Claude Code / Trae / Copilot 到底选谁（建议收藏·避坑版）08【AI】2026 年具身智能模型和世界模型总结 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？102026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片