深度学习与大模型
AGI为Artificial General Intelligence,意为人工通用智能
传统深度学习,每个任务都需要准备大量的数据,从零打造不同任务的流程,甚至专门的团队做对应的任务,这个本身成本很高;比如做情感分析任务,首先建立个团队,收集相关的Data数据,几十万条,会有一些相应的流程,数据清洗,数据处理,超参数的调整等等,智能问答也是要收集大量的数据,每个任务都是互相独立的,其实需要大量的数据本身就是个比较高的门槛了。
简单一点说,传统深度学习需要为每个任务准备大量数据,而AGI则依赖预训练的大模型,这些模型具备通用能力,可以通过较少的数据量激发特定能力。
AGI的学习范式,首先是我们有一个预训练的大模型,比如GPT3-base(base model),这个大模型是有一个通用的能力的,具备一定的知识,这时基于这个通用大模型,我们为了解决特定任务的时候,只需要相对较少的数据量(比如几万条),去激发一下大模型某方面特别的能力,好比某个人在某方面其实是有天赋的,但是他或许自己都不知道他有这方面的能力,我们需要激发他的潜能。
AGI的优势在于能够减少数据依赖和任务独立性,使得模型更加灵活和通用。这种学习范式正在逐渐取代传统的深度学习方法,特别是在需要处理多种任务和适应新任务时。
像OpenAI、Meta、百度等大公司在做预训练大模型,更多的工程师日常工作投入在微调大模型上面,这就是基于通用大模型的学习范式,也就是对大模型进行微调,常用方法包括部分参数微调、全量微调等。
大模型概览与趋势
BERT模型在2018年、2019年比较火,为什么现在停滞了呢?
BERT模型虽然在特定任务上表现出色,但在多任务学习中表现不佳。因此,研究者们转向了Decoder-Based模型,这类模型在多任务学习中展现出更好的潜力。
中文大语言模型
常见的一些底座系列
中文的大语言模型,直接使用LLaMA对中文的支持是比较弱的,所以有人把LLaMA拿过来,灌上中文的数据,成为了中文的底座,支持中文的词表库,而且对中文的理解能力比较强,然后我们可以再基于中文的底座进行一些fine-tune(微调)。 还有清华大学的ChatGLM底座,本身就是中文的,就有比较好的中 的词库,基于GhatGLM大家会做一些fine-tune,比如DoctorGLM这个是医疗领域的,还有数学相关的chatglm-maths, 还有像Baichuan系列也可以特别关注一下,这都是开源的一些项目。
中文大语言模型的发展对于提升模型在中文语境下的表现至关重要。通过fine-tune,模型可以更好地适应特定领域,如医疗、数学等。
微调(Fine-tuning)
微调是利用特定任务数据调整预训练模型的所有参数,以充分适应新任务的过程。这可以通过全量调整所有参数实现,或者采用参数高效微调技术(Parameter-Efficient Fine-Tuning, PEFT),仅优化部分参数以实现快速且低成本的迁移学习。
流行的微调技术包括:
Prefix Tuning:在输入前添加可学习的virtual tokens作为Prefix,仅更新Prefix参数,Transformer其他部分固定,减少需要更新的参数数量,提高训练效率。
Prompt Tuning:在输入层加入prompt tokens,简化版的Prefix Tuning,无需MLP调整,随着模型规模增大,效果接近full fine-tuning。
P-Tuning:将Prompt转换为可学习的Embedding层,并用MLP+LSTM处理,解决Prompt构造对下游任务效果的影响,提供更大的灵活性和更强的表示能力。
Adapter Tuning:设计Adapter结构并嵌入Transformer中,仅对新增的Adapter结构进行微调,原模型参数固定,保持高效性的同时引入少量额外参数。
LoRA (Low-Rank Adaptation):在矩阵相乘模块中引入低秩矩阵来模拟full fine-tuning,更新语言模型中的关键低秩维度,实现高效的参数调整,降低计算复杂度。在模型网络结构中并行,LoRA类似于一个u盘(插件),在对应的训练层数'随插随用'。
不同大模型的训练流程
架构设计+训练
第一种首先要设计一套Transformer结构,这个门槛是比较高的,需要较高的算力、算法和数据的支持,主流是几个T的token,至少也是1T的 token(token是数据清洗之后的最终的结果),接着训练得到预训练的模型,最后是SFT(有监督微调)+Aligenment(对齐);这一种比较经典的例子是 LLaMA、ChatGPT,门槛高除了要自己设计优秀的Transformer架构,譬如GPT系列,还有就是数据量要大,质量要高,还需具备Topic主题的多样性(ie. 代码、维基百科、新闻数据)。SFT也需要多样性的、质量高的数据。
架构复用+训练
第二种是国内几乎所有大公司都会做的事情,这里和第一种不一样的点是我们不需要从一开始设计一套Transformer架构,把别人开 源的架构进行复用,在复用的过程中可能会做少量的修改,最常做 的就是把LLaMA架构(开源)拿来复用,因为ChatGPT架构(闭源)是不知道的,在复用的过程中,我们可能改一些激活函数,改一些attention(注意力机制)的计算,Positional Encoding(位置编码)相关的东西等。
增量训练
第三种是增量训练,用处比较多的在垂直领域,在已有的预训练模型基础上增量的训练得到一个新的预训练模型,经典的垂直领域有医疗、法律、金融等, 比如Baichuan它对医疗领域不是特别的熟悉,我们搜集大量医疗领域的数据(300B),还需要加入通用的数据(500B),一起训练,这样可以保证在学习到医疗领域知识的同时不会将通用的知识遗忘掉。