Weekly AIGC News | 202312 Part One

⚡ Weekly AIGC News | 202312 Part One

❤️ 每周免费分享AIGC相关最新资讯,感兴趣可以关注,喜欢动动小手点个赞,谢谢支持!

😘 Contents

1️⃣ 脸书发布文生视频EmuVideo

  • 随着扩散模型的飞速发展,诞生了 Midjourney、DALL·E 3、Stable Difusion 等一大批出色的文生图模型。但在文生视频领域却进步缓慢,因为文生视频多数采用逐帧生成的方式,这类自回归方法运算效率低下、成本高。即便使用现有生成关键帧,再生成中间帧新方法。如何插值帧数,保证生成视频的连贯性也有很多技术难点。

  • 脸书则提出了一种全新的文生视频模型Emu Video

    • 该模型使用了分解式生成方法,先生成一张图像,再以该图像和文本作为条件生成视频,不仅生成的视频逼真符合文本描述,算力成本也非常低。
    • Emu Video的核心技术创新在于,使用了分解式生成方法。之前,其他文生视频模型是直接从文本描述映射到高维视频空间。但由于视频维度非常高,直接映射非常困难。
    • Emu Video的策略是首先生成一张图像,然后以该图像和文本作为条件,生成随后的视频帧。由于图像空间维度较低,生成第一帧更容易,然后生成后续帧只需要预测图像如何变化,这样整个任务难度很大程度降低。
  • 模块1 文本到图像

    • Emu Video 使用了一个训练好的文本到图像模型,可以生成很逼真的图片。为了让生成的图片更有创意,这个模型在海量的图像和文本描述进行预训练,学到了很多图像的风格,例如,朋克、素描、油画、彩绘等。
  • 模块2 图像到视频

    • 这个模块使用了跟文本到图像模块类似的结构,也是一个编码器-解码器结构。不同的是增加了处理时间信息的模块,也就是说可以学习如何把图片中的内容变化成一个视频。

    • 在训练的过程中,研究人员输入一小段视频,随机抽取其中的一帧图片,让这个模块学习根据这张图片和对应的文本生成整段视频。

    • 在实际使用时,先用第一个模块生成第一帧图片,然后输入这张图片和文本给第二个模块,让它生成整个视频。

    • 这种分解的方法让第二个模块的任务变得比较简单,只需要预测图片会随着时间而怎么变化和运动,就可以生成流畅逼真的视频。

  • 进一步优化

    • 1)采用零终端信噪比的散度噪声计划,能够直接生成高清视频,无需级联多个模型。之前的计划在训练和测试阶段信噪比存在偏差,导致生成质量下降。
    • 2)利用预训练文本到图像模型固定参数,保留图像质量和多样性,生成第一帧时不需额外训练数据和计算成本。
    • 3)设计多阶段训练策略,先在低分辨率训练快速采样视频信息,再在高分辨率进行微调,避免全程高分辨率的计算量大。

    在人类评估中显示,Emu Video生成的4秒长视频比其他方法更具质量和遵循文本的要求。语义一致性超过86%,质量一致性超过91%,明显优于Gen-2、Pika Labs、Make-A Video等知名商业模型。

  • Demo

2️⃣ 脸书发布图像编辑EmuEdit

通过输入文本指令,即可编辑图像(包括局部、全局、增加、删除、背景、纹理操作)

  • 我们推出了 Emu Edit,这是一种新颖的方法,旨在简化各种图像处理任务,为图像编辑带来更强的功能和更高的精度。

  • Emu Edit 能够通过指令进行自由格式编辑,包括局部和全局编辑、删除和添加背景、颜色和几何图形转换、检测和分割等任务。目前的方法往往倾向于对各种编辑任务进行过度修改或表现不佳。我们认为,首要目标不应仅仅是生成 "可信 "的图像。相反,模型应专注于只精确修改与编辑请求相关的像素。与当今许多生成式人工智能模型不同,Emu Edit 能精确地遵循指令,确保输入图像中与指令无关的像素不受影响。例如,当在棒球帽上添加文字 "阿罗哈!"时,棒球帽本身应保持不变。

  • 我们的主要见解是,将计算机视觉任务作为图像生成模型的指令,可为图像生成和编辑提供前所未有的控制。通过对局部和全局编辑任务的详细研究,我们强调了 Emu Edit 在执行详细编辑指令方面的巨大潜力。

  • 为了训练这个模型,我们开发了一个包含 1 千万个合成样本的数据集,每个样本包括一张输入图像、一个待执行任务的描述以及目标输出图像。我们相信这是迄今为止同类数据集中最大的一个。因此,我们的模型在指令忠实性和图像质量方面都取得了前所未有的编辑效果。在我们的评估中,Emu Edit 表现出了优于现有方法的性能,在一系列图像编辑任务的定性和定量评估中都取得了最先进的新结果。

  • Demo

3️⃣ 谷歌终于发布了Gemini

从测试结果来看Gemini Ultra确实很强大,但远没有到超过GPT-4很多的程度,不过也证明了除了Open AI其他公司也是可以训练出和GPT-4相当的LLM模型的。

你现在已经可以在和Bard用英语交谈的时候使用Gemini Pro模型了,同时Gemini Nano也在Pixel 8 Pro的Recorder总结功能和键盘联想上启用了。

来看一下具体的介绍:

  • Gemini 是多模态的,意味着它可以理解、操作和结合不同类型的信息,包括文本、代码、音频、图像和视频。
  • 它还非常灵活,能够高效地运行在从数据中心到移动设备上的各种环境中。Gemini 的第一个版本,Gemini 1.0,针对三种不同的大小进行了优化:Gemini Ultra 用于高度复杂的任务,Gemini Pro 适用于广泛的任务,Gemini Nano 用于设备上的任务。
  • Gemini Ultra 在 32 个广泛使用的学术基准测试中的 30 个上超越了当前的最新成果,这些基准测试用于大型语言模型的研究和开发。它是第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型,MMLU 测试了世界知识和在 57 个科目(如数学、物理、历史、法律、医学和伦理)中的解决问题能力。
  • Gemini 1.0 被训练用于同时识别和理解文本、图像、音频等,使其在解释数学和物理等复杂科目的推理方面表现出色。它还可以理解、解释和生成流行编程语言(如 Python、Java、C++ 和 Go)中的高质量代码。
  • Google 使用其针对 AI 优化的基础设施和自家设计的 Tensor Processing Units (TPUs) v4 和 v5e 来训练 Gemini 1.0。公司还宣布了迄今为止最强大、最高效、最可扩展的 TPU 系统------Cloud TPU v5p,专为训练尖端 AI 模型而设计。
  • Gemini 1.0 现在正在逐步应用于各种产品和平台。它将用于 Google 的产品,如 Bard 和 Pixel,开发者和企业客户可以从 12 月 13 日起通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。安卓开发者也将能够通过 AICore,在安卓 14 上使用 Gemini Nano 开发,该功能将从 Pixel 8 Pro 设备开始提供。

基于谷歌放出的技术报告Cameron分享了他推测的谷歌在预训练阶段保证数据多样性对Gemini取得这么好的效果有至关重要的影响:

(1) 数据来源多样化:我们应尽可能从各种不同来源(比如网络、书籍、代码等)获取预训练数据。不仅仅是文本,我们还需要考虑整合不同形式(如图像、音频、视频)、不同语言和不同领域(比如编程)的数据到预训练过程中。

(2) 注重 Tokenizer 选择:许多开发者习惯直接使用现成的预训练 Tokenizer,认为这样就够了。但实际情况并非如此!Tokenization 的问题可能会导致一系列后续问题,影响模型表现。为了获得最佳效果,我们应该在预训练数据集上定制我们自己的 Tokenizer,确保其适应模型将处理的数据类型。Gemini 正是采用了这种方法。

(3) 数据清洁度至关重要:处理大型语言模型(LLM)预训练的数据管道非常复杂,包括启发式规则、基于模型的方案、安全性/有害内容过滤等。先前的研究(例如 Falcon LLMs)强调使用简单规则来筛选预训练数据,但 Gemini 在其预训练数据管道中采用了更多手段,力求构建尽可能纯净的预训练数据集。

(4) 来自 Chinchilla 的经验教训:2022 年 3 月 Chinchilla 的研究发现至今仍适用。优秀的预训练大型语言模型需要大量的参数和海量的数据。简而言之,许多大型语言模型实际上训练不足!我们应尽可能利用所有可用数据进行预训练,前提是不要因计算成本而使自己陷入困境。

(5) 数据加权重要:除了数据混合外,我们从每个预训练数据源采样数据的频率(即数据权重)也十分关键。为了找到最佳数据权重,我们应该用较小的模型和数据集进行调优实验。有趣的是,Gemini 的研究者们还发现,在训练过程中调整数据权重(例如,在训练的后期增加特定领域数据的权重)也可能有益。

4️⃣ Mymap:AI 生成各种类型的思维导图

Mymap这个产品打磨的相当可以,非常适合做研究。图表的种类很多,而且会根据你的问题自动选择和询问合适的图表类型。 比如我下面就让他列出中国具体的时代和朝代时间表,他选择了思维导图样式,然后我选中了思维导图中的汉朝,让他列出每一位汉朝皇帝的名字和时间,他选择了list。速度很快信息也很准确。

5️⃣ VEED:AI 视频编辑应用

添加炫酷的字幕到你的视频变得非常简单:1. 导入或录制您的视频2. 自动生成字幕3. 快速轻松地修正任何单词或拼写错误4. 选择合适的样式5. 嗨!准备分享到任何地方的精美字幕 为什么要添加字幕?字幕(或字幕)可帮助您用视频吸引更多人,并增加参与度。有了字幕,即使听力不太好或声音静音,每个人都可以观看您的视频。

特征- 自动添加字幕到您的视频- 字幕可用50种不同的语言!- 快速编辑任何单词- 用样式让您的字幕突出- 使用现有视频或录制新视频- 无需上传文件,只需从您的存储中导入它们- 修剪您的视频- 更改视频的宽高比,使其准备好在任何平台上分享。

6️⃣ Playground v2:关注美学表现的 SDXL 架构图像生成模型

Playground v2模型开源了权重,用户可以在playground.com或HuggingFace上试用。Playground v2相比Stable Diffusion XL模型在用户评价中更受欢迎2.5倍。然后文章介绍了一个新的基准MJHQ-30K,用于评估模型的审美质量。这个基准使用高质量图像数据集计算FID值。

最后提到Playground公司也开源了部分模型权重,以推动计算资源有限环境下的研究。同时寻求与用户分享他们使用Playground v2创建的作品。

7️⃣ Outside:AI 帮你规划你的生活

Outside 是一种新的生活规划者,它可以帮助成千上万的人实现个性化的新体验。现在,你拥有了一种新的创造力和生产力超级能力。

Outside 与你的日历连接,通过令人惊叹的摄影将它变得可视化,并在你自己的世界地图上显示你的计划。从计划周末度假或给伴侣带来独特的地方吃饭,Outside 是一个充满活力的社区。

8️⃣ FaceStudio:在几秒钟内将您的脸放到任何地方

一个保持 AI 画图中人脸特征的技术FaceStudio,可以将你的人脸放在任何地方转换为各种风格,只需要一张照片。 目前 SD一张照片的 的方案还是只有 Ipadapter-face,但是效果没有这个演示好,这个演示再叠加昨天发布的magic animat 照片迁移动画就完美了 哈哈。

9️⃣ 使用哪种人工智能的意见指南 ChatGPT 周年纪念版

www.oneusefulthing.org/p/an-opinio...

生成式人工智能的世界似乎非常混乱,在过去的几个月里发布了大量的大型语言模型,包括谷歌发布的一项重要新声明。因此,考虑到这一切,很多人问我他们究竟应该尝试哪种人工智能。我想从个人用户的角度给你一个答案,他们想尝试使用人工智能,要么是想体验一下人工智能是什么样的,要么是因为他们想将人工智能用于特定用途--教学、提高创造力、改善工作绩效,或者只是为了好玩。

对于大多数想要使用人工智能的人来说,我的建议非常简单。当然,一旦我告诉你简单的答案,我就会把它复杂化一点,再复杂化一点,但让我们从简单的东西开始:获取 GPT-4。停止使用免费的 ChatGPT。

几周前,使用 GPT-4 进行实验的理想方式还很明确。你可以每月支付 20 美元,通过 OpenAI 购买 ChatGPT Plus 的访问权限。这样你就可以访问运行 GPT-4 的最新版 ChatGPT,包括我上面讨论的所有功能。一旦你拥有了它,我建议你尝试用它来完成各种任务,从工作任务(让它帮你创新、总结文档、写邮件、提供建议)到娱乐(用它代替谷歌、写有趣的故事、玩游戏)。有效使用聊天机器人总是有点奇怪,而且也没有指导手册,但我发现在使用 ChatGPT 约 10 小时后,人们就会明白了。你的目标是达到这 10 个小时,而 ChatGPT Plus 是最简单的方法。

过去几周发生了三件事情: ChatGPT Plus 订阅暂时停止销售,ChatGPT 似乎受到了性能问题和频繁中断的困扰,而且出现了许多使用该系统的新方法。我仍然建议你购买 Plus,但你不能。

幸运的是,有一大堆方法可以访问 GPT-4,但它们都有点奇怪。目前最好的方法是免费的,而且在全球 169 个国家都可以使用,那就是微软必应。没错,就是微软的搜索引擎

最后,让我们谈谈谷歌。谷歌一直在测试自己的人工智能,供消费者使用,他们称之为 "Bard",但它是由各种人工智能模型驱动的。直到最近,它还是一个名为 PaLM 2 的人工智能,而且很糟糕。从今天起,它已被一个名为 Gemini Pro 的模型所取代,我一直在使用它。它的功能要强得多,但仍处于 ChatGPT 的水平。虽然 Bard 的搜索界面和功能非常令人兴奋和流畅,但我一般会谨慎使用这种型号,因为它的性能不如 GPT-4 支持的 Bing。据说,谷歌将在一月份发布第一款打败 GPT-4 的机型,名为 Gemini Ultra。届时,我一定会撰写相关报道,但当前版本的 Gemini 即使不是最先进的,也完全没有问题。


🤝 Thank you

❤️ 每周免费分享AIGC相关最新资讯,感兴趣可以关注,喜欢动动小手点个赞,谢谢支持!

相关推荐
C7211BA几秒前
使用随机森林模型在digits数据集上执行分类任务
算法·随机森林·分类
RaidenQ4 分钟前
2024.9.20 Python模式识别新国大EE5907,PCA主成分分析,LDA线性判别分析,GMM聚类分类,SVM支持向量机
python·算法·机器学习·支持向量机·分类·聚类
Kenneth風车8 分钟前
【机器学习(九)】分类和回归任务-多层感知机 (MLP) -Sentosa_DSML社区版
人工智能·算法·低代码·机器学习·分类·数据分析·回归
曳渔20 分钟前
Java-数据结构-二叉树-习题(三)  ̄へ ̄
java·开发语言·数据结构·算法·链表
shark-chili30 分钟前
数据结构与算法-Trie树添加与搜索
java·数据结构·算法·leetcode
见牛羊35 分钟前
旋转矩阵乘法,自动驾驶中的点及坐标系变换推导
算法
爱数模的小云2 小时前
【华为杯】2024华为杯数模研赛E题 解题思路
算法·华为
白葵新2 小时前
PCL addLine可视化K近邻
c++·人工智能·算法·计算机视觉·3d
seanli10082 小时前
线性dp 总结&详解
算法·动态规划
小丁爱养花2 小时前
记忆化搜索专题——算法简介&力扣实战应用
java·开发语言·算法·leetcode·深度优先