一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果

苹果最新的 AI 工具可以使用文本描述为图像制作动画。

现阶段,大模型惊人的创新能力持续影响着创意领域,尤其是以 Sora 为代表的视频生成技术,更是引领了新一代潮流。当大家都为 Sora 感到震撼的同时,或许苹果的这项研究也值得大家关注一下。

在一篇名为 「Keyframer: Empowering Animation Design using Large Language Models 」的研究中,来自苹果的研究者发布了一个可以利用 LLM 生成动画的框架 Keyframer,该框架允许用户采用自然语言提示来创建静态 2D 图像的动画。

论文地址:arxiv.org/pdf/2402.06...

具体而言,该研究结合了基于语言提示设计工件的新兴设计原则和 LLM 的代码生成能力,构建了一个新的 AI 驱动的动画工具 Keyframer。通过 Keyframer,用户可以通过自然语言提示,从静态 2D 图像创建动画插图。借助 GPT-4,Keyframer 可以生成 CSS 动画代码,使输入的 SVG(Scalable Vector Graphic)动画化。

除此以外,Keyframer 支持用户通过多种编辑器类型直接编辑生成的动画。

用户还可以通过连续提示和请求 LLM 生成的设计变体来迭代他们的设计,以在新的设计方向上进行构思。不过,Keyframer 尚未公开。

之所以做这项研究,苹果表示 LLM 在动画中的应用尚未得到充分探索,并带来了新的挑战,例如用户如何有效地用自然语言描述运动。现阶段虽然文生图工具如 Dall・E 和 Midjourney 等效果出色,但动画设计需要考虑更复杂的因素,例如时间以及协调性,这些因素很难在单个提示中全面概括。

至于这项研究的效果如何,用户只需上传图像,在提示框中输入「让星星闪烁」之类的内容,然后点击生成即可。

用户可以在一个批次中生成多个动画设计,并在单独的窗口中调整颜色代码和动画持续时间等属性。无需任何编码经验,因为 Keyframer 会自动将这些更改转换为 CSS,代码本身也是完全可编辑的。这种基于描述的方法比其他形式的人工智能生成动画简单得多,后者通常需要多个不同的应用程序和一些编码经验。

Keyframer 介绍

Keyframer 是一款由 LLM 驱动的应用程序,旨在从静态图像创建动画。Keyframer 可以充分利用 LLM 的代码生成能力,以及静态矢量图(SVG)的语义结构,从而根据用户提供的自然语言提示生成动画。

输入:该系统提供了一个输入区域,用户可以在其中粘贴他们想要动画化的 SVG 图像代码(SVG 是一种标准且流行的图像格式,在插图中因其可伸缩性及在多个平台上的兼容性而常用)。在 Keyframer 中,SVG 的渲染显示在代码编辑器旁边,以便用户可以预览图像的视觉设计,如图 2 所示,土星插图的 SVG 代码包含了如天空、光环等标识符。

GPT 提示:该系统允许用户输入自然语言提示来创建动画。用户可以请求单个设计(让行星旋转)或多个设计变体(创建 3 个星星闪烁的设计),之后单击「生成动画」按钮开始请求。在将用户请求传递给 GPT 之前,该研究会用完整的原始 SVG XML 完善其提示,并指定 LLM 响应的格式。

GPT 输出:一旦提示请求开始,GPT 就会传输响应,该响应由一个或多个 CSS 片段组成,如图 3 所示。

渲染:渲染部分包括(1)每个动画进行可视化渲染以及由 LLM 生成的 1 句解释(2)一系列用于修改设计的编辑器。

其中代码编辑器使用 CodeMirror 实现;属性编辑器为编辑代码提供了特定于属性的 UI,例如为了编辑颜色,该研究提供了一个颜色选择器。图 5 显示了代码编辑器与属性编辑器图示。

迭代:为了支持用户在动画创建过程 (DG1) 中进行更深入的探索,该研究还提供了一项功能,允许用户使用提示在生成的动画上迭代构建。每个生成的设计下面都有一个按钮「 + Add New Prompt 」;单击此按钮会在页面底部打开一个新表单,供用户使用新提示扩展其设计。

保存设计的侧边栏以及摘要。该系统允许用户对设计加注星标进行收藏并将其添加到侧边栏,如图 6 右侧所示。此外,该系统还有一个摘要模式,其能隐藏所有文本编辑器并显示动画及其提示,使用户能够快速重新访问以前的提示和设计。

实验过程中,苹果团队选择了 13 名参与者(6 名女性,7 名男性)试用 Keyframer。表 1 为参与者的一些信息及其掌握的技能。

甚至专业动作设计师「EP13」也看到了 Keyframer 扩展其能力的潜力:「我有些担心这些工具会取代我们的工作,因为它的潜力如此之大。但细细想来,这项研究只会提高我们的技能。应该是件值得高兴的事情。」

总体而言,参与者对 Keyframer 的使用体验感到满意。参与者给出的平均分数为 3.9 ,介于满意 (4) 和中立 (3) 之间。参与者生成了 223 种设计。平均来看,每位参与者生成 17.2 个设计。图 8 显示了两个参与者的最终动画示例。

更多技术细节请参阅原论文。

相关推荐
说私域7 分钟前
基于开源链动2+1模式AI智能名片S2B2C商城小程序的市场份额扩张路径研究
人工智能·小程序·开源
文火冰糖的硅基工坊16 分钟前
[人工智能-大模型-72]:模型层技术 - 模型训练六大步:①数据预处理 - 基本功能与对应的基本组成函数
开发语言·人工智能·python
晚霞apple1 小时前
三维重建技术的未来创新方向
论文阅读·人工智能·深度学习·神经网络·机器学习
NocoBase1 小时前
GitHub 上最值得关注的 14 个开源 AI 低代码工具
人工智能·低代码·github
无风听海1 小时前
神经网络之语义空间
人工智能·深度学习·神经网络
cxr8281 小时前
AI提示工程第一性原理:精通原子提示,激发语言模型的基本单位
人工智能·语言模型·自然语言处理
X.AI6662 小时前
YouTube评论情感分析项目84%正确率:基于BERT的实战复现与原理解析
人工智能·深度学习·bert
艾莉丝努力练剑2 小时前
【C++:继承】面向对象编程精要:C++继承机制深度解析与最佳实践
开发语言·c++·人工智能·继承·c++进阶
小宁爱Python2 小时前
从零搭建 RAG 智能问答系统 6:Text2SQL 与工作流实现数据库查询
数据库·人工智能·python·django