研究人员使用一种称为深度学习的流程来构建通用型人工智能模型,该流程训练模型通过示例进
行学习 (41)。不同于软件工程,深度学习模型可学会根据数据来完成任务,而不依赖手写指令。通过处理大量数据(如图像、文本或音频),这些模型能够发现表示这些数据的方法,从而创建对模式(patterns)(如形状、词语关联或声音结构)的内部表示(internal representations),帮助模型识别其中的关系,并生成与其训练目标一致的输出。然后,它们利用这些学到的内部表征作为抽象特征(abstractfeatures)来分析新的相似数据并以相同风格生成输出。例如,根据足够多的 19 世纪浪漫英语诗歌示例进行训练的通用型人工智能模型能够识别这种风格的新诗歌,并以类似的风格生成新材料。
在更精细的层面上,深度学习的工作原理是通过互连的信息处理节点层来处理数据。这些节点通常被称为"神经元",因为它们的设计灵感大致来源于生物大脑("神经网络")中的神经元。随着信息从一层神经元流向下一层,模型逐渐将数据转换为更抽象的表现形式(representations),这些表
现形式由学习到的特征(feature)群组组成,即模型在数据中自动发现的模式,而非手动编码的模式。例如,在图像处理模型中,第一层可能会学会检测边缘或基本形状等简单特征,而较深的层则结合这些特征来挑选出面部或物体等更复杂的图案。
所有层的特征都是通过定义训练程序的优化过程发现的。在训练过程中,当模型出错时,深度学习算法会调整神经元之间各种连接的强度,以提升模型的表现。节点之间每个连接的强度通常称为"权重"。这种分层方法为"深度学习"这一名称的由来事实证明,对于以前被认为传统手工编程计算系统和其他早期的符号或基于规则的人工智能方法来说很难完成的任务,深度学习在让人工智能系统完成这些任务方面非常有效。现在,大多数最先进的通用型人工智能模型都基于一种被称为 "transformer" 的特定神经网络架构 。Transformer 使用"注意力" 机制,帮助模型在处理信息时专注于输入数据中最相关的部分,例如确定句子中哪些单词对理解其含义最为重要。这种特殊的模型构建方式为翻译、自然语言处理、图像识别和语音识别带来了显著改进,最终导致了开发出当今最先进的模型。