生成式AI模型可以进行对话、回答问题、写故事、生成源代码以及创建几乎任何描述的图像和视频。下面将介绍生成式AI的工作原理,它的应用以及为什么它的能力比你想象的要有限,本文将向您介绍生成式AI及其在流行模型(如ChatGPT和DALL-E)中的应用,最后我们还将探讨这项技术的局限性。
前言
生成式AI是一种人工智能,它根据从现有内容中学到的模式创建新的内容,包括文本、图像、音频和视频。现今的生成式AI模型已经通过深度学习或深度神经网络在大量数据上进行了训练,它们可以进行对话、回答问题、写故事、生成源代码以及根据简短的文本输入或"提示"创建任何描述的图像和视频。
生成式AI 之所以被称为生成式,是因为AI创造了以前不存在的东西。这使得它与判别式AI不同,后者在不同类型的输入之间进行区分。换句话说,判别式AI试图回答类似于"这幅图是画的兔子还是狮子?"这样的问题,而生成式AI则对类似于"画一幅狮子和兔子坐在彼此旁边的图片。"的提示作出响应。
生成式AI的兴起
生成式AI已经存在多年,可以说最早可追溯到1966年在麻省理工学院开发的ELIZA
,一款模拟与心理治疗师对话的聊天机器人。然而,在AI和机器学习领域多年的研究成果最近逐渐变得成熟,催生了新的生成式AI系统。您几乎肯定听说过ChatGPT
,这是一款以文本为基础的AI聊天机器人,其生成的文字非常类似于人类的文章。DALL-E
和Stable Diffusion
也因其能够根据文本提示创建生动、逼真的图像而引起关注。
在关注其能对经济或生活造成什么影响之前,首先,让我们看看生成式AI的内部运作。
生成式AI是如何工作的?
生成式AI使用机器学习处理大量的视觉或文本数据(其中大部分来自互联网),然后确定哪些事物更有可能出现在其他事物附近。生成式AI的大部分编程工作都是为了创建能够区分AI创作者感兴趣的"事物"的算法------在像ChatGPT这样的聊天机器人中是单词和句子,而在DALL-E中是视觉元素。但从根本上说,生成式AI通过评估大量的数据,然后根据这些数据确定的概率范围对提示作出响应,从而创建输出。
自动补全------当您的手机或Gmail推测您正在输入的单词或句子的剩余部分时------是生成式AI的一种低级形式。ChatGPT和DALL-E只是将这个想法发展到了更高级的高度。
什么是AI模型?
ChatGPT和DALL-E是底层AI功能的接口,在AI术语中被称为模型。AI模型是一种数学表示------实现为算法或实践------可以生成与已有数据集相似的新数据。有时你会看到ChatGPT和DALL-E本身被称为模型;严格来说这是不正确的,因为ChatGPT是一个聊天机器人,为用户提供对底层GPT模型的多个不同版本的访问。但实际上,这些接口是大多数人与模型互动的方式,所以不要惊讶于看到这些术语可以互换使用。
AI开发者会收集一组他们希望模型生成的数据类型。这组数据被称为模型的训练集,而开发模型的过程称为训练。例如,GPT模型是在从互联网抓取的大量文本上进行训练的,结果是你可以用自然语言查询输入,它可以用甚至多种自然语言来回应你,就像你和我面对面正常的聊天一样。
AI模型将其训练集中数据的不同特征视为向量------由多个数字组成的数学结构。这些模型背后的很多秘密在于它们能够以有意义的方式将现实世界的信息转换为向量,并确定哪些向量在使模型生成与训练集相似但不完全相同的输出方面相似。
虽然有许多不同类型的AI模型,但请记住各种类别之间并不一定是互斥的。有些模型可以适用于多个类别。
目前可能在公众关注领域中,AI模型类型最受关注的是大型语言模型(LLMs
)。LLMs
基于一个称为transformer
的概念,该概念首次在2017年谷歌研究员的论文《Attention Is All You Need》中提出。transformer
从长序列文本中获取含义,以了解不同单词或语义成分之间可能存在的关系,然后确定它们彼此靠近的可能性。GPT模型是LLMs,其中T代表transformer
。这些变压器在一个庞大的自然语言文本语料库上进行无监督运行,这个过程称为pre-training
(这就是GPT中的P),然后通过人类与模型互动进行fine-tuning
。
diffusion
通常用于生成AI模型,用于生成图像或视频。在diffusion过程中,模型向图像中添加噪声(基本上是随机性),然后逐渐迭代地去除噪声,同时与训练集进行对比,尝试匹配语义相似的图像。diffusion
是稳定扩散和DALL-E等执行文本到图像的AI模型的核心。
生成对抗网络(GAN
)是基于一种强化学习类型,其中两个算法相互竞争。一个算法根据大数据集中的概率生成文本或图像。另一个是判别性AI,用于评估输出是真实的还是AI生成的。生成AI反复尝试"欺骗"判别性AI,自动调整以支持成功的结果。一旦生成AI始终"赢得"这场比赛,判别性AI将由人类进行微调,然后重新开始这个过程。
这里最重要的一点是,虽然在训练过程中人类会进行干预,但大部分学习和适应都是自动进行的。需要很多次迭代才能使模型达到产生有趣结果的程度,因此自动化至关重要。这个过程在计算上非常密集,AI能力的近期爆发很大程度上得益于GPU计算能力的进步以及在这些芯片上实现并行处理的技术。
生成AI是否具有意识?
创建和训练生成AI模型的数学和编码相当复杂,远远超出了本文的范畴。但如果你与这个过程的最终结果模型互动,体验可能会非常奇特。你可以让DALL-E生成看起来像真正艺术品的东西。你可以与ChatGPT进行对话,感觉就像与另一个人交谈。研究人员真的创造了一个会思考的机器吗?
曾在IBM自然语言处理领域工作并参与Watson AI产品的Chris Phipps表示否定。他将ChatGPT描述为一个"非常好的预测机器"。
它非常擅长预测人类会觉得连贯的事物。它并不总是连贯的(大多数情况下是),但这并不是因为ChatGPT"理解"。正相反,消费输出的人类非常擅长做出我们需要的任何隐式假设,以使输出有意义。
就像我们平时聚会玩的动物园,植物园的游戏,多个参与者要说出相同属性的词语。这是因为我们用人类的大脑去推理前面说的名词并找到关联关系。