ChatGPT-4o 在汉字显示上进步巨大

放假在家,又可以摆弄摆弄 AI 了。前段时间听说 ChatGPT 上线了图片生成功能,吉卜力风更是风靡了世界,但一直没有时间去研究。趁着假期空闲来玩一玩 ChatGPT 的文生图。

首先跟风玩一玩吉卜力风,我上传了一张上周末跑荆州马拉松的照片,然后给 ChatGPT 下达了如下指示:

将图片转换为类似吉卜力的画风,构图保持相同。

得到下图:

图片构图、人物姿态、表情和原图保持了一致,但中间的人物年龄出现了偏差,所以我又下达了指令:

上图中间为一中年大叔,请处理得看起来强壮一些。

得到了如下图片:

有一点非常奇怪,为啥运动上衣上显示的是 hangzhou。看起来是上传的图片不太清晰,其实是荆州。于是我又下达了新的指令:

中间人物的衣服上的文字为荆州马拉松,号码牌数字为 D0272

图片不是很完美,比如马拉松掉了一个字,但还是震惊到了我。玩过 AI 文生图的朋友可能知道,文字显示一直是文生图的难题。去年的时候,stable diffusion 在英文字符的显示上取得重要进步,可以非常好的按照指示显示英文单词,但在汉字的显示上依然拉胯,到现在仍未解决。

比如现在微信公众号提供了 AI 生成文章封面的功能,但如果指示其包含汉字,就会得到如下效果:

我之前一直以为,这个汉字显示的问题,肯定会由中国的 AI 公司解决,并且会形成一个特色优势。没想到 AI 这么快就攻克了汉字的显示难题,还是一家外国公司做到的。

除了汉字显示外,ChatGPT-4o 的中文理解能力也令人印象深刻。在上面的提示语中,没有复杂的描述,仅仅几个简单的句子,AI 就很好的理解了我的意图。前几年,还有提示词工程师这一说,那个时候,需要写很复杂的提示词,还需要学习一些技巧,才能让 AI 理解我们的意图。现在随着 AI 进步,提示词也不再神秘,技巧不再那么重要,大不了多沟通几次,随着交互的上下文越长,AI 就越能理解我们的意图。

如果说上面的例子还不够有说服力,那下面再尝试一下直接由文字生成图片。

请用一张信息图解释什么是光合作用,使用中文解释。

图片中规中矩,有点小瑕疵,但很好的表达了光合作用的原理,特别是文字的处理上,堪称完美。

目前 ChatGPT 免费用户每天只能能生成四张图,想要更好的体验,就得升级到 plus 会员,期待国内的 AI 也能很快赶上来,最后放一张网络上别人用 ChatGPT 做的四格漫画,按照 AI 的这种发展速度,以后只需要创意,其他的都可以交给 AI 了。


你发现了 AI 还有哪些令人惊奇的进步?欢迎交流。

相关推荐
畅信达—融合通信专家10 分钟前
全栈国产化信创适配,构建安全可控的呼叫中心系统
人工智能
不归路&12 分钟前
Python项目-支持自然语言处理
人工智能·自然语言处理
拓端研究室TRL19 分钟前
PyMC+AI提示词贝叶斯项目反应IRT理论Rasch分析篮球比赛官方数据:球员能力与位置层级结构研究
大数据·人工智能·python·算法·机器学习
layneyao22 分钟前
AI在医疗领域的10大应用:从疾病预测到手术机器人
人工智能·机器人
卡奥斯开源社区官方1 小时前
多模态革命!拆解夸克AI相机技术架构:如何用视觉搜索重构信息交互?(附开源方案对比)
人工智能·重构
MatpyMaster1 小时前
液体神经网络LNN-Attention创新结合——基于液体神经网络的时间序列预测(PyTorch框架)
人工智能·pytorch·神经网络·时间序列预测
jndingxin1 小时前
OpenCV 图形API(69)图像与通道拼接函数------将一个 GMat 类型的对象转换为另一个具有不同深度GMat对象函数convertTo()
人工智能·opencv·计算机视觉
带娃的IT创业者1 小时前
《AI大模型应知应会100篇》第39篇:多模态大模型应用:文本、图像和音频的协同处理
人工智能·microsoft·音视频
算AI1 小时前
LLM用于科学假设生成:探索与挑战
人工智能·算法
冷水鱼1 小时前
docker部署MinerU web api
人工智能