DataWhale-三月学习任务-大语言模型初探(一、二、五章学习)

本次学习计划，参考赵鑫老师团队出版的大语言模型一书，链接如下：
书籍及参考资料链接

第一章节

从技术路径上来说，语言模型（LanguageModel, LM）是提升机器语言智能（Language Intelligence）的主要技术途径之一。

1.1 语言模型的发展历程

1.1.1 统计语言模型
对语言序列进行建模，但是对于高阶统计语言模型来说，随着阶数n的增加，需要统计的转移概率项数会呈指数级增加，导致"维数灾难"。
神经语言模型（Neural Lannguage Model，NLM）
以RNN、LSTM、GRU等为代表的神经网络模型，在这一时期，出现了分布式词表示 这一概念，并构建了基于聚合上下文特征的目标词预测函数，分布式词表示使用低维稠密向量 来表示词含义，与稀疏词向量（one-hot）表示有着本质区别，稀疏词向量表示 能够刻画更为丰富的隐含语义特征。
稠密向量的非零表征对于复杂语言模型的搭建非常友好，能够有效克服统计语言模型中数据稀疏的问题。，分布式词向量又被称为词嵌入，word2vec和glove就是其中的代表工作。这种文本表示学习的方法在自然语言处理领域产生了重要的影响。

从上图可以看出，语言模型逐渐越来越火热。

1.1.2 预训练语言模型（Pre-trained Language Model）
在这一时期代表是 ELMo模型，该模型使用大量无标注数据训练双向LSTM网络，预训练完成后所得到的biLSTM可以用来学习上下文感知的单词表示，这与word2vec学习固定的词表示有着显著不同，ELMo还可以根据下游任务对模型进行微调，但是传统序列神经网络的长文本建模能力较弱，并且不容易训练，因此早期ELMo性能表现并不惊艳。

在这之后，2017年Google提出了Self-attention的Transformer模型，通过自注意力机制建模长程序列关系，Transformer的设计适合并行计算，不在向RNN，LSTM那样是单向计算，基于Transformer架构，谷歌进一步提出了预训练模型BERT ，BERT 采用了仅编码器的结构，于此同时，GPT-1 采用了仅解码器的Transformer架构，从而确立了"预训练-微调"这一任务求解范式。一般来说，仅编码器结构的模型更适合用于文本理解，文本摘要生成等任务，而解码器结构模型更适合去解决文本生成任务。
1.1.3 大语言模型
与小规模预训练模型不同的是，大语言模型的文本生成能力更强，也就是说大模型具备小模型不具备的"涌现能力"。随着模型参数、训练数据、计算算力的大规模扩展，新一代大语言模型的任务求解能力有了显著提升，能够不再依靠下游任务数据的微调进行通用任务的求解。

1.2 大语言模型的特点

具备丰富的世界知识
具有较强的通用任务解决能力
随着模型参数、训练数据、计算算力的大规模扩展，最新一代大语言模型的任务求解能力有了显著提升，能够不再依靠下游任务
数据的微调进行通用任务的求解。
具有较好的复杂任务推理能力
具有较强的人类指令遵循能力
具有较好的人类对齐能力
目前广泛采用的对齐方式是基于人类反馈的强化学习技术，通过强化学习使得模型进行正确行为的加强以及错误行为的规避，进而建立较好的人类对齐能力。目前很多线上部署的大语言模型应用，都能够有效阻止典型的模型功能滥用行为，一定程度上规避了常见的使用风险。
具有可拓展的工具使用能力
虽然大语言模型，在一些领域的能力表现较差，但是大语言模型的理解能力和上下文学习能力，可以使得大模型借助网络搜索和计算器，python解释器等工具，来更好的解决这些领域问题。

1.3 大语言模型关键技术概览

1.规模不断扩展，数据、算力、模型参数量都在逐渐变大，但是近期也有一些工作在尝试使用较小的模型参数来实现相当的能力。

2.数据质量不断提升，追求更多高质量的数据，以及各类任务的配比训练。

3.高校预训练，很多机构都发布了专用的分布式优化框架，其中具有代表性的分布式训练软件包括DeepSpeed和Megatron-LM

4.能力激发

5.人类对齐，让大模型输出符合人类偏好的数据，对人类无害的信息。

对此Open-ai提出了RLHF对齐方法，最近学术界开始涌现除了一批使用监督微调的对齐方式，从而简化RLHF的优化过程算法，如DPO算法等。

6.让大模型使用工具

1.4 大语言模型对科技发展的影响

一些传统领域的研究，已经逐渐被大模型取代，而转向为如何提升大模型的领域能力和综合能力。在信息检索领域，出现了较火的RAG和大模型增强的搜索系统，同时大语言模型对科技发展也在产生着非常重要的影响。

第二章节

2.1 大语言模型的涌现能力和扩展法则

主要讨论了大模型的涌现能力和扩展法则，在这方面有大量的研究，但是并没有定论说规模扩展到一定程度就一定会带来涌现能力的出现，就像小孩子的语言学习，会突然说出令爸妈惊讶的话来。
这种现象的一个重要原因是由于Transformer架构具有较好的数据扩展性，到目前为止，还没有实验能够有效验证特定参数规模语言模型的饱和数据规模（即随着数据规模的扩展，模型性能不再提升）

代表的涌现能力：

上下文学习
指令遵循
逐步推理

2.2 GPT的发展脉络

GPT-1： GPT-1与同时期的BERT不同，GPT-1采用的是仅解码器的模型，但在当时与BERT参数量相当的GPT模型性能不如BERT模型，因此没有引起学术界的足够关注。
GPT-2：沿用了GPT-1架构，但是扩大了参数规模，达到了1.5B
GPT-3：与GPT-2相比，GPT-3直接将参数规模提升了100余倍，对于模型扩展在当时给出了一个极限尝试，其雄心、魄力可见一斑。，GPT-3可以被看作从预训练语言模型到大语言模型演进过程中的一个重要里程碑，它证明了将神经网络扩展到超大规模可以带来大幅的
模型性能提升，并且建立了以提示学习方法为基础技术路线的任务求解范式。
后续能力增强上，增加了代码训练数据和人类对齐，增强的模型被称为GPT-3.5
后续GPT-4、ChatGP、GPT-4V、GPT-4Turbot 引入了多模态以及工具的使用

第五章节

首先介绍大语言模型的架构配置：

5.1 Transformer模型

Transformer是由多层的多头自注意力（Multi-headSelf-attention）模块堆叠而成的神经网络模型。与BERT等早期的预训练语言模型相比，大语言模型的特点是使用了更长的向量维度、更深的层数，进而包含了更大规模的模型参数，并主要使用解码器架构，对于Transformer 本身的结构与配置改变并不大。

5.1.1 输入编码

首先将输入的词元序列转换成嵌入编码 + 位置编码的形式（公式如下），再送入到后续的神经网路中进行训练。

通过这种建模方法的表示，Transformer 模型可以利用位置编码 𝒑𝑡 建模不同词元的位置信息。由于不同词元的位置编码仅由其位置唯一决定，因此这种位置建模方式被称为绝对位置编码。尽管绝对位置编码能够一定程度上建模位置信息，然而它只能局限于建模训练样本中出现的位置，无法建模训练数据中未出现过的位置，因此极大地限制了它们处理长文本的能力。

5.1.2 多头注意力机制

5.1.3 归一化方法

第五章还有许多部分，没有完全理解...待更新。。。。。。