ChatGPT-4o 在汉字显示上进步巨大

放假在家,又可以摆弄摆弄 AI 了。前段时间听说 ChatGPT 上线了图片生成功能,吉卜力风更是风靡了世界,但一直没有时间去研究。趁着假期空闲来玩一玩 ChatGPT 的文生图。

首先跟风玩一玩吉卜力风,我上传了一张上周末跑荆州马拉松的照片,然后给 ChatGPT 下达了如下指示:

将图片转换为类似吉卜力的画风,构图保持相同。

得到下图:

图片构图、人物姿态、表情和原图保持了一致,但中间的人物年龄出现了偏差,所以我又下达了指令:

上图中间为一中年大叔,请处理得看起来强壮一些。

得到了如下图片:

有一点非常奇怪,为啥运动上衣上显示的是 hangzhou。看起来是上传的图片不太清晰,其实是荆州。于是我又下达了新的指令:

中间人物的衣服上的文字为荆州马拉松,号码牌数字为 D0272

图片不是很完美,比如马拉松掉了一个字,但还是震惊到了我。玩过 AI 文生图的朋友可能知道,文字显示一直是文生图的难题。去年的时候,stable diffusion 在英文字符的显示上取得重要进步,可以非常好的按照指示显示英文单词,但在汉字的显示上依然拉胯,到现在仍未解决。

比如现在微信公众号提供了 AI 生成文章封面的功能,但如果指示其包含汉字,就会得到如下效果:

我之前一直以为,这个汉字显示的问题,肯定会由中国的 AI 公司解决,并且会形成一个特色优势。没想到 AI 这么快就攻克了汉字的显示难题,还是一家外国公司做到的。

除了汉字显示外,ChatGPT-4o 的中文理解能力也令人印象深刻。在上面的提示语中,没有复杂的描述,仅仅几个简单的句子,AI 就很好的理解了我的意图。前几年,还有提示词工程师这一说,那个时候,需要写很复杂的提示词,还需要学习一些技巧,才能让 AI 理解我们的意图。现在随着 AI 进步,提示词也不再神秘,技巧不再那么重要,大不了多沟通几次,随着交互的上下文越长,AI 就越能理解我们的意图。

如果说上面的例子还不够有说服力,那下面再尝试一下直接由文字生成图片。

请用一张信息图解释什么是光合作用,使用中文解释。

图片中规中矩,有点小瑕疵,但很好的表达了光合作用的原理,特别是文字的处理上,堪称完美。

目前 ChatGPT 免费用户每天只能能生成四张图,想要更好的体验,就得升级到 plus 会员,期待国内的 AI 也能很快赶上来,最后放一张网络上别人用 ChatGPT 做的四格漫画,按照 AI 的这种发展速度,以后只需要创意,其他的都可以交给 AI 了。


你发现了 AI 还有哪些令人惊奇的进步?欢迎交流。

相关推荐
网教盟人才服务平台3 小时前
“方班预备班盾立方人才培养计划”正式启动!
大数据·人工智能
芯智工坊3 小时前
第15章 Mosquitto生产环境部署实践
人工智能·mqtt·开源
菜菜艾3 小时前
基于llama.cpp部署私有大模型
linux·运维·服务器·人工智能·ai·云计算·ai编程
TDengine (老段)3 小时前
TDengine IDMP 可视化 —— 分享
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据·时序数据
小真zzz3 小时前
搜极星:第三方多平台中立GEO洞察专家全面解析
人工智能·搜索引擎·seo·geo·中立·第三方平台
GreenTea4 小时前
从 Claw-Code 看 AI 驱动的大型项目开发:2 人 + 10 个自治 Agent 如何产出 48K 行 Rust 代码
前端·人工智能·后端
火山引擎开发者社区4 小时前
秒级创建实例,火山引擎 Milvus Serverless 让 AI Agent 开发更快更省
人工智能
冬奇Lab4 小时前
一天一个开源项目(第72篇):everything-claude-code - 最系统化的 Claude Code 增强框架
人工智能·开源·资讯
火山引擎开发者社区4 小时前
ArkClaw:以 SLI 度量驱动,构建新一代 Agent 全链路可观测体系
人工智能