ChatGPT-4o 在汉字显示上进步巨大

放假在家，又可以摆弄摆弄 AI 了。前段时间听说 ChatGPT 上线了图片生成功能，吉卜力风更是风靡了世界，但一直没有时间去研究。趁着假期空闲来玩一玩 ChatGPT 的文生图。

首先跟风玩一玩吉卜力风，我上传了一张上周末跑荆州马拉松的照片，然后给 ChatGPT 下达了如下指示：

将图片转换为类似吉卜力的画风，构图保持相同。

得到下图：

图片构图、人物姿态、表情和原图保持了一致，但中间的人物年龄出现了偏差，所以我又下达了指令：

上图中间为一中年大叔，请处理得看起来强壮一些。

得到了如下图片：

有一点非常奇怪，为啥运动上衣上显示的是 hangzhou。看起来是上传的图片不太清晰，其实是荆州。于是我又下达了新的指令：

中间人物的衣服上的文字为荆州马拉松，号码牌数字为 D0272

图片不是很完美，比如马拉松掉了一个字，但还是震惊到了我。玩过 AI 文生图的朋友可能知道，文字显示一直是文生图的难题。去年的时候，stable diffusion 在英文字符的显示上取得重要进步，可以非常好的按照指示显示英文单词，但在汉字的显示上依然拉胯，到现在仍未解决。

比如现在微信公众号提供了 AI 生成文章封面的功能，但如果指示其包含汉字，就会得到如下效果：

我之前一直以为，这个汉字显示的问题，肯定会由中国的 AI 公司解决，并且会形成一个特色优势。没想到 AI 这么快就攻克了汉字的显示难题，还是一家外国公司做到的。

除了汉字显示外，ChatGPT-4o 的中文理解能力也令人印象深刻。在上面的提示语中，没有复杂的描述，仅仅几个简单的句子，AI 就很好的理解了我的意图。前几年，还有提示词工程师这一说，那个时候，需要写很复杂的提示词，还需要学习一些技巧，才能让 AI 理解我们的意图。现在随着 AI 进步，提示词也不再神秘，技巧不再那么重要，大不了多沟通几次，随着交互的上下文越长，AI 就越能理解我们的意图。

如果说上面的例子还不够有说服力，那下面再尝试一下直接由文字生成图片。

请用一张信息图解释什么是光合作用，使用中文解释。

图片中规中矩，有点小瑕疵，但很好的表达了光合作用的原理，特别是文字的处理上，堪称完美。

目前 ChatGPT 免费用户每天只能能生成四张图，想要更好的体验，就得升级到 plus 会员，期待国内的 AI 也能很快赶上来，最后放一张网络上别人用 ChatGPT 做的四格漫画，按照 AI 的这种发展速度，以后只需要创意，其他的都可以交给 AI 了。

你发现了 AI 还有哪些令人惊奇的进步？欢迎交流。