DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

出场即炸场的 DALL·E 3,又有新动向了!

这次直接宣布对 ChatGPT Plus企业版用户开放,还连带公开了更多 "官方推荐案例"。

不仅如此,OpenAI 还一纸论文透露了 DALL·E 3 的关键技术细节

相比其他 AI,DALL·E 3 表现最优秀的地方,应该就要属对提示词的完美遵循了。

无论是整体的环境描写,还是精确到物体数量、着装、颜色这种细节叙述,DALL·E 3 都能很好地理解,并生成对应的画作,丝毫不漏重点。

论文一公开,可以说是解决了 "如何让 DALL·E 3 遵循指令" 这一让诸多人困惑的问题,有网友感叹:

OpenAI 终于又 Open 了?

一起来看看这篇 DALL·E 3 论文的关键细节,以及它的更多用例。

先来看看 DALL·E 3 论文最大的亮点:提示词遵循(prompt following)。

此前,不少绘画 AI 会刻意忽略提示词中的某些关键词、或是混淆提示词的含义(多义词如 column,列还是柱子),简单来说就是文本提示词和画面细节没对齐。

OpenAI 的研究人员在经过一番分析后认为,这是数据集的锅。

现有的图像文本对数据集,文字对图像的描述可以说是 "惜字如金"。

尤其是从互联网上扒下来的数据集,大多数对图像的描述只有一句话,更别提细节了。包括环境、物体在内,容易忽略的文本描述主要有 4 类

  • 场景中物体描述,如厨房里的水槽、人行道上的停车标志等;
  • 物体位置和数量描述
  • 物体颜色和大小描述
  • 图像中的文本描述(如呈现在商店招牌上的字母 / 汉字)

除此之外,还有不少互联网上扒下来图像的文本描述,直接就是错误或不相关的,例如梗图或 Alt 文本(图像加载失败时网页上呈现的文字描述)。

为此,有必要将这些图像对应的文本数据重新整理一遍,更准确地描述图像中的场景和物品进行描述。

光靠人力是不太可能的,毕竟要生成的 "废话文学" 太多了。

和 RLHF 一样,OpenAI 同样将这个过程 "自动化" 了一波,让 AI 来完成这件事。

他们训练了一个 "图像字幕器"(image captioner),专门用来给数据集中的图像重新生成文本描述。

这是 "图像字幕器" 给数据集中的部分图片生成文本描述的效果:

这下子描述就详细多了。

那么,用 AI 来合成文本,实际训练出来的模型是否真能提升生成效果?

研究人员用开源模型(如 CLIP)测试了一波,得出的结论是可以。

不过也不能完全使用合成的文本描述,毕竟 AI 生成的内容可能有些 "神秘共性",直接全盘接受容易导致图像过拟合

因此,OpenAI 还在 CLIP 上尝试了一波合成文本描述 - 图像数据集的效果。

他们发现,数据集中混杂 95% 的合成文本 - 图像数据时,CLIP 的效果是最好的。

最终,他们决定 95% 的图像用合成文本描述,剩下的 5% 图像依旧使用人工描述,用这个比例的文本 - 图像数据集重新训练了 DALL·E 3,取得了不错的效果。

最后,OpenAI 也采用人工评估的方法,对 DALL·E 3 和其他模型进行了测试。

评估方法大致像这样,询问人类哪个图像能更好地遵循提示词、或生成更好看的图像。

结果显示,DALL·E 3 相比 Midjourney 5.2、SDXL 和 DALL·E 2,在提示词遵循、风格匹配等任务测试上均取得了不错的效果。

除了这篇论文以外,OpenAI 这次还公布了 DALL·E 3 的另一动向------向 ChatGPT Plus企业版开放。

在宣布这一消息的同时,OpenAI 也给出了企业和机构使用 DALL·E 3 的建议,例如做科学项目:

搞网站设计:

或是帮企业设计 LOGO:

当然,无论是 ChatGPT Plus 还是企业版,仍然也属于收费项目。

目前唯一可以免费玩到 DALL·E 3 的地方,应该还是微软的 New Bing。

对于 OpenAI 带来的 DALL·E 3 新消息,不少网友感觉振奋。

有网友表示,DALL·E 3 的出现真正给设计圈带来了改变,例如设计饮料包装等:

还有网友已经在催 API 的到来了:

但也有网友对这次更新不甚满意,尤其是对 DALL·E 3 论文涉及的技术信息表示了嘲讽:

直接用谷歌的 T5 文本编码器和卷积解码器,这就是公司发展太快的结果吗?

这里是网友提到的 DALL·E 3 论文细节:

要是对 DALL·E 3 的更多技术细节感兴趣,也可以到论文中找找答案~

论文地址:
cdn.openai.com/papers/dall...

参考链接:

1\][twitter.com/OpenAI/stat...](https://link.juejin.cn?target=https%3A%2F%2Ftwitter.com%2FOpenAI%2Fstatus%2F1715050642560151963 "https://twitter.com/OpenAI/status/1715050642560151963") \[2\][openai.com/blog/dall-e...](https://link.juejin.cn?target=https%3A%2F%2Fopenai.com%2Fblog%2Fdall-e-3-is-now-available-in-chatgpt-plus-and-enterprise "https://openai.com/blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise") *版权所有,未经授权不得以任何形式转载及使用,违者必究。*

相关推荐
NocoBase2 天前
NocoBase 本周更新汇总:优化及缺陷修复
低代码·开源·资讯
遇见小码6 天前
RF-DETR:实时目标检测新宠儿!6毫秒极速推理,超越YOLO的精度王者
开源·资讯
技术蔡蔡6 天前
Android闭源?假新闻?
android·开源·资讯
GitLqr8 天前
Android - 2025年安卓真的闭源了吗
android·开源·资讯
NocoBase10 天前
替代 Airtable / 飞书表格?用零代码构建多对多关系的任务管理系统
低代码·开源·资讯
草梅友仁20 天前
Mermaid 流程图与 Open-Sora | 2025 年第 11 周草梅周报
开源·github·资讯
NocoBase23 天前
NocoBase v1.6.0 正式版发布
低代码·开源·资讯
合肥自友科技25 天前
智慧校园管理系统:打造现代化教育的新篇章
产品经理·产品·资讯
合肥自友科技25 天前
学工系统学生登录入口,学生学工操作流程,学工学生系统
产品经理·产品·资讯
苏谨深1 个月前
【PH测评】ResumeUp 2.0实测:承诺"与AI聊几分钟生成完美简历"的工具如何?
资讯