大模型基本概念和分类介绍总结

一、什么是大模型

大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。

大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。

大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测。

ChatGPT 对大模型的解释更为通俗易懂,也更体现出类似人类的归纳和思考能力:大模型本质上是一个使用海量数据训练而成的深度神经网络模型 ,其巨大的数据和参数规模,实现了智能的涌现展现出类似人类的智能

大模型的典型例子 是深度神经网络中的巨大模型,如GPT-3、BERT和AlphaGo Zero。

这些模型在自然语言处理、计算机视觉、语音识别等领域取得了令人瞩目的成果。由于大模型的参数量庞大,需要使用大规模的训练数据和高性能的计算设备进行训练和推理。。

大模型通常参数较多、层数较深,具有更强的表达能力和更高的准确度,但也需要更多的计算资源和时间来训练和推理适用于数据量较大、计算资源充足 的场景,例如云端计算、高性能计算、人工智能

小模型的概念

通常指参数较少、层数较浅的模型 ,它们具有轻量级、高效率、易于部署等优点。

适用于数据量较小、计算资源有限的场景,例如移动端应用、嵌入式设备、物联网等

而当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,其表现出了一些未能预测的、更复杂的能力和特性,模型能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,这种能力被称为"涌现能力"。

具备涌现能力的机器学习模型 就被认为是独立意义上的大模型 ,这也是其和小模型最大意义上的区别

二、大模型的区分

大模型(Large Model 也称基础模型,即 Foundation Model):

是指具有大量参数和复杂结构的机器学习模型,能够处理海量数据、完成各种复杂的任务,如自然语言处理、计算机视觉、语音识别等。

超大模型:

超大模型是大模型的一个子集 ,它们的参数量远超过大模型。

大语言模型(Large Language Model):

通常是具有大规模参数和计算能力的自然语言处理模型 ,例如 OpenAI 的 GPT-3 模型。

这些模型可以通过大量的数据和参数进行训练,以生成和人类类似的描述性文本或回答自然语言问题。大型语言模型在自然语言处理、文本生成和智能对话等领域有广泛应用。

GPT(Generative Pre-trained Transformer):

GPT 和 ChatGPT 都是基于 Transformer 架构的语言模型,但它们在设计和应用上存在区别:

GPT 模型 旨在生成自然语言文本并处理各种自然语言处理任务如文本生成、翻译、摘要 等。它通常在单向生成 的情况下使用,即根据给定的文本生成连贯的输出

ChatGPT:

ChatGPT 则专注于对话和交互式对话 。它经过特定的训练,以更好地处理多轮对话和上下文理解。ChatGPT 设计用于提供流畅、连贯和有趣的对话体验,以响应用户的输入并生成合适的回复

大模型根据输入内容分类

更具输入大致可以分为以下三类

语言大模型(NLP):

指在自然语言处理(Natural Language Processing,NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语言。

这类大模型的主要特点是它们在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则。

例如:GPT 系列(OpenAI)、Bard(Google)、文心一言(百度)。

视觉大模型(CV):

指在计算机视觉(Computer Vision,CV)领域中使用的大模型,通常用于图像处理和分析。

这类模型通过在大规模图像数据上进行训练,可以实现各种视觉任务,如图像分类、目标检测、图像分割、姿态估计、人脸识别等。

例如:VIT 系列(Google)、文心UFO、华为盘古 CV、INTERN(商汤)。

多模态大模型:

指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。

这类模型结合了 NLP 和 CV 的能力,以实现对多模态信息的综合理解和分析,从而能够更全面地理解和处理复杂的数据。

例如:DingoDB 多模向量数据库(九章云极 DataCanvas)、DALL-E(OpenAI)、悟空画画(华为)、midjourney。

按应用领域划分

按照应用领域,大模型主要可以分为 L0、L1、L2 三个层级:

通用大模型 L0:

是指可以在多个领域和任务上通用的大模型。

它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法,在大规模无标注数据上进行训练,以寻找特征并发现规律,进而形成可"举一反三"的强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于 AI 完成了"通识教育"。

行业大模型 L1:

是指那些针对特定行业或领域的大模型。

它们通常使用行业相关的数据进行预训练或微调,以提高在该领域的性能和准确度,相当于 AI 成为"行业专家"。

垂直大模型 L2:

是指那些针对特定任务或场景的大模型。

它们通常使用任务相关的数据进行预训练或微调,以提高在该任务上的性能和效果。

三、大模型的泛化与微调

模型的泛化能力:

指一个模型在面对新的、未见过的数据时,能够正确理解和预测这些数据的能力。

在机器学习和人工智能领域,模型的泛化能力是评估模型性能的重要指标之一。

什么是模型微调:

给定预训练模型(Pre-trained model),基于模型进行微调(Fine Tune)。

相对于从头开始训练(Training a model from scatch),微调可以省去大量计算资源和计算时间,提高计算效率,甚至提高准确率。

模型微调的基本思想 是使用少量带标签的数据对预训练模型进行再次训练,以适应特定任务。

在这个过程中,模型的参数会根据新的数据分布进行调整。这种方法的好处在于,它利用了预训练模型的强大能力,同时还能够适应新的数据分布。

因此,模型微调能够提高模型的泛化能力,减少过拟合现象

四、大致的发展历程

萌芽期(1950-2005): 以 CNN 为代表的传统神经网络模型阶段

· 1956 年,从计算机专家约翰·麦卡锡提出"人工智能"概念开始,AI 发展由最开始基于小规模专家知识逐步发展为基于机器学习。

· 1980 年,卷积神经网络的雏形 CNN 诞生。

· 1998 年,现代卷积神经网络的基本结构 LeNet-5 诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续深度学习框架的迭代及大模型发展具有开创性的意义。

探索沉淀期(2006-2019): 以 Transformer 为代表的全新神经网络模型阶段

· 2013 年,自然语言处理模型 Word2Vec 诞生,首次提出将单词转换为向量的"词向量模型",以便计算机更好地理解和处理文本数据。

· 2014 年,被誉为 21 世纪最强大算法模型之一的 GAN(对抗式生成网络)诞生,标志着深度学习进入了生成模型研究的新阶段。

· 2017 年,Google 颠覆性地提出了基于自注意力机制的神经网络结构------Transformer 架构,奠定了大模型预训练算法架构的基础。

· 2018 年,OpenAI 和 Google 分别发布了 GPT-1 与 BERT 大模型,意味着预训练大模型成为自然语言处理领域的主流。在探索期,以 Transformer 为代表的全新神经网络架构,奠定了大模型的算法架构基础,使大模型技术的性能得到了显著提升。

迅猛发展期(2020-至今): 以 GPT 为代表的预训练大模型阶段

· 2020 年,OpenAI 公司推出了GPT-3,模型参数规模达到了 1750 亿,成为当时最大的语言模型,并且在零样本学习任务上实现了巨大性能提升。随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现, 被用于进一步提高推理能力和任务泛化。

· 2022 年 11 月,搭载了GPT3.5的 ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。

· 2023 年 3 月,最新发布的超大规模多模态预训练大模型------GPT-4,具备了多模态理解与多类型内容生成能力。在迅猛发展期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如 ChatGPT 的巨大成功,就是在微软Azure强大的算力以及 wiki 等海量数据支持下,在 Transformer 架构基础上,坚持 GPT 模型及人类反馈的强化学习(RLHF)进行精调的策略下取得的。

参考学习文章: https://xie.infoq.cn/article/c73d7cd6c89fa88279e6e0afe

相关推荐
珠海新立电子科技有限公司21 分钟前
FPC柔性线路板与智能生活的融合
人工智能·生活·制造
IT古董36 分钟前
【机器学习】机器学习中用到的高等数学知识-8. 图论 (Graph Theory)
人工智能·机器学习·图论
曼城周杰伦1 小时前
自然语言处理:第六十三章 阿里Qwen2 & 2.5系列
人工智能·阿里云·语言模型·自然语言处理·chatgpt·nlp·gpt-3
余炜yw1 小时前
【LSTM实战】跨越千年,赋诗成文:用LSTM重现唐诗的韵律与情感
人工智能·rnn·深度学习
莫叫石榴姐2 小时前
数据科学与SQL:组距分组分析 | 区间分布问题
大数据·人工智能·sql·深度学习·算法·机器学习·数据挖掘
如若1232 小时前
利用 `OpenCV` 和 `Matplotlib` 库进行图像读取、颜色空间转换、掩膜创建、颜色替换
人工智能·opencv·matplotlib
YRr YRr2 小时前
深度学习:神经网络中的损失函数的使用
人工智能·深度学习·神经网络
ChaseDreamRunner2 小时前
迁移学习理论与应用
人工智能·机器学习·迁移学习
Guofu_Liao3 小时前
大语言模型---梯度的简单介绍;梯度的定义;梯度计算的方法
人工智能·语言模型·矩阵·llama
我爱学Python!3 小时前
大语言模型与图结构的融合: 推荐系统中的新兴范式
人工智能·语言模型·自然语言处理·langchain·llm·大语言模型·推荐系统