BERT、GPT-3、DALL-E 2、LLaMA、BLOOM 这些模型是自 ChatGPT 发布以来我们一直在见证的 AI 革命中的一些明星。这些模型有什么共同点?你猜对了:它们都是基础模型。
基础模型是人工智能的最新发展。这些模型是根据旨在优化输出的通用性和多功能性的算法开发的。它们基于大规模神经网络,这些神经网络通常在广泛的数据源和大量数据上进行训练,以完成广泛的下游任务,包括一些没有专门开发和训练的任务。
基础模型的普及正在激起狭义人工智能与通用人工智能(AGI)的经典争论,也称为强人工智能。狭义人工智能是指为特定任务而设计但无法执行超出其计划范围的任务的人工智能系统。相比之下,AGI 是一个假设的 AI 系统,可以像人类一样在各种任务中理解、学习和应用知识。
虽然基础模型仍然无法像人类一样思考,但它们正在提供突破性的结果,使我们更接近AGI的门槛。这就是为什么数据专业人员和非专家都应该熟悉这些模型的原因。
让我们仔细看看基础模型!
什么是基础模型?了解关键概念
基础模型是一个相对较新的术语,可以与其他流行概念重叠,例如生成式 AI、转换器和大型语言模型 (LLM)。
然而,人工智能的术语仍然存在争议。以下是可帮助您驾驭快速发展的 AI 领域的定义列表:
- 生成式 AI。这是一个广义的术语,用于描述其主要功能是生成内容的 AI 系统,与为其他任务(例如分类和预测)设计的其他 AI 系统形成鲜明对比。
- Transformer。Transformer 彻底改变了深度学习领域。它们提供了一种创新的架构,可以更有效地处理顺序数据。Transformer 特别适合处理文本,这就是为什么它们已成为自然语言处理 (NLP) 和自然语言生成 (NLG) 领域的基石。但是,transformer 也已与其他数据类型(如图像)一起使用,结果同样成功。
- 大型语言模型。LLM 是用于建模和处理人类语言的 AI 系统。Transformer 是 LLM 背后的底层技术。它们之所以被称为"大",是因为它们有数亿甚至数十亿个参数,这些参数是使用大量文本数据语料库预先训练的。
- 基础模型。这是一个广义的术语,用于定义旨在产生广泛而通用的输出的 AI 模型。它们能够执行一系列可能的任务和应用程序,包括文本、视频、图像或音频生成。这些模型的一个独特特征是,它们可以是独立的系统,也可以用作其他应用程序的"基础"。例如,名为 GPT 的 LLM 作为 ChatGPT 的基础模型。
基础模型如何工作?
基础模型的基础技术------无论它们被设计用于什么任务以及它们用于训练的数据类型------都是转换器。
Transformer 由 Google 研究人员于 2017 年开发,它提供了一种替代传统递归神经网络 (RNN) 和卷积神经网络 (CNN) 的替代方案,用于处理顺序数据,即文本。
转换器的工作原理是预测序列中的下一个单词以形成连贯的响应。这个过程是通过一种称为注意力的机制完成的,该机制在生成响应时会权衡不同单词的影响。
训练转换器包括两个步骤:预训练和微调。
预训练
在此阶段,转换器使用大量原始(文本)数据进行训练,并将互联网作为主要数据源。
训练是使用自我监督学习完成的,这是一种创新的训练类型,不需要人工操作来标记数据。
预训练的目标是学习语言的统计模式。由于实现 Transformer 更好性能的主流策略是通过增加模型的大小(即增加参数)和预训练期间使用的数据量,因此此阶段通常耗时且成本高昂。
微调
预训练可以让转换器获得对语言的基本理解,但仅仅执行特定的实际任务是不够的。这就是为什么该模型会经历一个微调阶段,在这个阶段,它在一个更窄的、特定于领域的数据集上进行训练,该数据集是在人类审阅者的帮助下按照某些准则生成的。
形态
基础模型的另一个重要特征是模态。根据基础模型可以作为输入的数据类型,它们可以是单模态或多模态的。前者只能获取一种类型的数据并生成相同类型的输出,而后者可以接收多种输入类型的模态并生成多种类型的输出(例如,GPT-4 可以同时接受图像和文本输入并生成文本输出。
了解变压器的工作原理可能很棘手,并且超出了本文的范围。
基础模型的应用
基础模型可以用作独立系统,也可以用作无数下游 AI 系统和应用程序的基础。虽然大多数现代基础系统旨在生成文本或代码并执行 NLP 任务,但越来越多的系统能够生成其他类型的输出,例如图像或音乐。
您可以在下面找到一些最受欢迎的基础模型的表格。
基础模型
下游AI系统
应用
LaMDA (Google)
实验性、对话式、AI 聊天服务。
GPT-3.5 (OpenAI)
允许您进行类似人类的对话。
GPT-3 (OpenAI)
允许 DataCamp Workspace 用户更好、更智能地编写代码。
AudioLM (OpenAI)
GitHub Copilot
实时建议代码和整个功能。
AudioLM (Google)
MusicLM
根据文本描述创作音乐。
BLOOM (Hugging Face)
无下游应用。可直接使用
多个 NLP 任务。接受过 46 种不同语言和 13 种编程语言的培训。
LLaMA (Meta)
无下游应用。可直接使用
帮助研究人员推进他们在 AI 这一子领域的工作。
DALL-E 2 (OpenAI)
无下游应用。可直接使用
根据自然语言的描述创建逼真的图像和艺术。
基础模型的挑战和担忧
基础模型处于 AI 的最前沿,有可能为无数应用程序提供支持。但是,重要的是要考虑其潜在的风险和挑战。
以下是需要与基础模型的广泛采用相关的非详尽风险列表:
- 缺乏透明度。算法不透明是与基础模型相关的主要问题之一,基础模型通常被描述为"黑盒"模型,也就是说,模型非常复杂,以至于无法跟踪其推理。人工智能提供商通常以商业机密为由不愿意提供有关其模型的信息。然而,提高透明度对于了解基础模型的成本和影响以及评估其安全性和有效性至关重要。
- 偏见和歧视。有偏见的基础模式可能导致不公平的决定,这往往会加剧对少数群体的歧视。IBM 研究院正在探索将这种偏见降至最低的方法。
- 隐私问题。基础模型使用大量数据进行训练,通常包含个人数据。这可能会导致与数据隐私和安全相关的问题和风险。
- 道德考量。基金会模型有时会导致对我们的生活产生严重影响的决定,对我们的基本权利产生重大影响。
基础模型的未来
基础模型正在推动当前的生成式人工智能热潮。潜在的应用是如此广泛,以至于包括数据科学在内的每个部门和行业都可能在不久的将来受到人工智能采用的影响。
虽然我们离实现通用人工智能还很遥远,但基础模型的开发代表了人工智能竞赛中的一个重要里程碑。一般来说,公司、监管机构和社会都应该意识到人工智能的现状,这是确保透明度、公平性和问责制的先决条件。