1.简述语言建模LM、统计语言建模SLM、神经语言模型NLM、预训练语言模型PLM、大语言模型LLM

语言是人类表达和交流的突出能力,它在儿童早期发展并在一生中不断演变。然而,机器除非配备了强大的人工智能算法,否则不能自然地掌握以人类语言形式理解和交流的能力。实现让机器像人类一样阅读、写作和交流的目标,一直是一个长期的研究挑战。

从技术上讲,语言建模LM)是提高机器语言智能的主要方法之一。一般来说,LM旨在对词序列的生成概率进行建模,以预测未来(或缺失)tokens的概率。语言建模的研究在文献中受到了广泛关注,可以分为四个主要发展阶段:

  • 统计语言建模(SLM):SLMs基于统计学习方法开发,并在20世纪90年代兴起。其基本思想是基于马尔科夫假设建立词预测模型,例如根据最近的上下文预测下一个词。具有固定上下文长度n的SLM也称为n元语言模型,例如bigram和trigram语言模型。SLM已被广泛应用于提高信息检索(IR)和自然语言处理(NLP)的任务性能。然而,它们通常受到维数灾难的困扰:由于估计指数级数量的转换概率,因此很难准确估计高阶语言模型。因此,专门设计的平滑策略,如回退估计和古德图灵估计已被引入以缓解数据稀疏问题。
  • 神经语言模型(NLM):NLM通过神经网络,如循环神经网络(RNN),来描述单词序列的概率。作为一个显著贡献的工作引入了词的分布式表示这一概念,并在聚合上下文特征(即分布式词向量)的条件下构建词预测函数。通过扩展学习词或句子有效特征的想法,已有研究开发了一种通用神经网络方法来为各种NLP任务构建统一解决方案。此外,word2vec提出了构建一个简化的浅层神经网络来学习分布式单词表示的方法,这些表示在各种NLP任务重被证明非常有效。这些研究开创了将语言模型用于表示学习(超越词序列建模)的应用,对NLP领域产生了重要影响。
  • 预训练语言模型(PLM):作为早期尝试,ELMo被提出来通过预训练一个双向LSTM(biLSTM)网络(而不是学习固定的词表示)来捕捉上下文感知的词表示,然后根据特定的下游任务微调biLSTM网络。进一步,基于自注意力机制的高度并行化Transformer架构,BERT作为双向语言模型,在大规模无标签语料库上使用专门设计的预训练任务。这些预训练的上下文感知词表示作为通用语义特征非常有效,其极大地提高了NLP任务的性能。这项研究激发了大量后续工作,确立了"预训练和微调"学习范式。遵循这一范式,已经建立了大量关于PLM的研究,这些研究引入了不同的架构(例如GPT-2和BART)或者改进的预训练策略。在这个范式中,通常需要对PLM进行微调以适应不同的下游任务。
  • 大语言模型(LLM) :研究人员发现,扩展PLM(例如扩展模型大小或数据大小 )通常会提高下游任务的模型性能(即遵循扩展定律)。许多研究通过训练越来越大的PLM(例如175B参数的GPT-3和540B参数的PaLM)来探索性能极限。尽管扩展主要在模型大小方面进行(使用类似的架构和预训练任务),但这些大规模的PLM与较小的PLM(例如3.3亿参数的BERT和15亿参数的GPT-2)表现出不同的行为,并在解决一系列复杂任务中展示了惊人的能力(称为涌现能力)。例如,GPT-3可以通过上下文学习来解决少样本任务,而GPT-2则表现不佳。因此,研究界将这些大规模的PLM命名为"大语言模型(LLM)"。作为LLM的一个出色应用,ChatGPT将GPT系列的LLM应用于对话,展现出惊人的与人类对话的能力。

在现有文献中,PLM已经得到了广泛的讨论和调研,而很少有研究对LLM以系统的方式进行回顾。LLM和PLM之间的三个主要区别。

首先,LLM表现出一些令人惊讶的涌现能力,这些能力可能在以前较小的PLM中没有观察到。这些能力是LM在复杂任务上表现的关键,它使得人工智能算法具有前所未有的强大和有效性。

其次,LLM将彻底改变人类开发和使用人工智能算法的方式。与小型PLM不同,访问LLM的主要方法是通过提示接口(例如GPT-4 API)。人们必须了解LLM的工作原理,并以LLM能够遵循的方式形式化他们的任务。

第三,LLM的发展不再明确区分研究和工程。训练LLM需要在大规模数据处理和分布式并行训练方面具有丰富的实践经验。为了开发出有能力的LLM,研究人员必须解决复杂的工程问题,他们需要与工程师合作或成为工程师。

如今,LLM对AI社区产生了重大影响,ChatGPT和GPT-4的出现促使人们重新思考通用人工智能(AGI)的可能性。OpenAI已经发布了一篇名为"planning for AGI and beyond"的技术文章,讨论了实现AGI的短期和长期计划,而一篇更近期的论文认为GPT-4可能被视为AGI系统的早期版本。AI研究领域正因LLM的迅速发展而发生革命性变革。在NLP领域,LLM可以在一定程度上作为通用语言任务解决器,其研究范式已经转向使用LLM。在IR领域,传统搜索引擎正受到通过AI聊天机器人(即ChatGPT)搜索新信息的挑战,而New Bing展示了一个初步的基于LLM增强搜索结果的研究尝试。在计算机视觉(CV)领域,研究人员试图开发类似ChatGPT的视觉-语言模型,以更好的为多模态对话提供服务,GPT-4已经通过整合视觉信息来支持多模态输入。这一新技术浪潮可能会带来一个基于LLM的实际应用的繁荣生态系统。例如,Microsoft 365正在利用LLM(即Copilot)来自动化办公工作,而OpenAI支持在ChatGPT中使用插件来实现特殊功能。

LLM尽管取得了进步和影响,但其基本原理尚未得到充分探索。首先,为什么涌现能力会出现在LLM中,而不是较小的PLM中,这仍然是个谜。并且,一个更普遍的问题是研究界尚且缺乏对LLM优越能力的关键因素进行深入、详细的研究调查。因此,研究LLM何时以及如何获得这些能力非常重要。尽管对这个问题已有一些有意义的讨论,但仍需要更多原则性的研究来解释LLM的"秘密"。其次,研究界很难训练出有能力的LLM。由于计算资源的巨大需求,为了研究训练LLMs的各种策略的效果,进行重复、消融研究的成本非常高。实际上,LLM主要由工业界训练,许多重要的训练细节(如数据收集和清理)并未向公众透露。第三,将LLM与人类价值观或偏好保持一致是具有挑战性的。LLM尽管具有出色的能力,但是其也可能生成有害、虚构或具有负面影响的内容。因此,需要有效和高效的控制方法来消除使用LLMs的潜在风险。

相关推荐
virtaitech4 分钟前
OrionX GPU算力池助力AI OCR场景应用
人工智能·ai·ocr·gpu算力·ai算力资源池化
lalahappy7 分钟前
文档智能:OCR+Rocketqa+layoutxlm
人工智能
大模型实战7 分钟前
RAPIDS AI 加速制造业预测性维护效率
大数据·人工智能
zhangfeng11338 分钟前
在 PyTorch 中,除了 pad_sequence 还有哪些其他处理序列数据的函数?时间序列数据 预处理
人工智能·pytorch·python·深度学习
jndingxin13 分钟前
OpenCV结构分析与形状描述符(18)比较两个轮廓相似度的函数matchShapes()的使用
人工智能·opencv·计算机视觉
akhfuiigabv41 分钟前
探索Timescale Vector与Postgres数据库的融合:AI应用的新选择
数据库·人工智能·python
Pluses1 小时前
Datawhale X 李宏毅苹果书 AI夏令营 《深度学习详解》第十九章 ChatGPT
人工智能·笔记·深度学习·学习
树莓集团2 小时前
从AI到大数据,数字技术服务平台全栈赋能企业升级
大数据·人工智能·科技·物联网·媒体
Java追光着2 小时前
基于扣子(Coze)打造第一个智能体——个性化对话机器人
人工智能·机器人·扣子
勤劳兔码农2 小时前
基于LSTM的文本摘要生成实战教程
人工智能·rnn·lstm