介绍完了chatGPT的生成原理, 那么我们继续介绍介绍大模型。
大模型的缩写是LLM,全称是Large Language Model, 所以这个大模型也可以被称作为大语言模型
那么问题来了,为啥有了大模型呢,难道之前都是小模型吗?确实,大模型刚开始就是因为参数大,训练数据多所以就叫做大模型,在大模型之前的模型参数和训练数据相比之下确实小,这解释了大模型中的大字,那么模型两字该如何理解呢?是我们所说的数学模型、软件系统中的软件模型还是说科学研究中的理论假设或者时尚界的诸如实物的模型呢?要搞清楚模型,那么我们就得从机器学习开始说起。
一:机器学习
机器学习,顾名思义就是让计算机自己去学习并存储对应的知识,然后帮助人类去做一些工作。比如常见的人脸识别就是给到计算机足够多的人脸照片,然后让他识别出来对应的人脸是谁。大家可能好奇这后面是如何实现的,可以想一想我们初中学习的二元一次方程 y=kx+b, 我们如果要解出来这个方程,我们是不是要给到两个点的x,y 坐标就可以得出来k和b并解答出来这个方程,这个y=kx+b 就是我们上面所说的最最简单的模型,就是方程组。
当然现实世界中比这个一元二次方程组复杂的多,可能是n元n次方程组,那么我们就要给到相应的坐标点和相应的数学方法去对这个方程求解,但是万变不离其宗,理论上给到足够多的好的输入和输出,就是对应的x和y值,计算机就可以得到很精确的模型,帮助我们解决掉一些问题。通俗点来说,把这个通过投喂数据给计算机并且让它自己推导出来方程或者叫模型的过程就叫做机器学习。
二:监督学习和无监督学习
上面我们讲到了x和y, 有一个x就必定有对应的y,有多少个x就有多少个对应的y,所以这种有一方输入必定有对应的输出的机器学习就叫做监督学习,比如我们常见的图像分类或者说一些诸如天气和股票的预测的学习都是这样的;但是当我们有一群x,不知道对应的y,让机器自己去看这些x应该输出怎样的y,诸如我们生活中常见的那个把不一样的橘子分成不同的堆等,我们分的时候没有瞄准的目标,只能自己心里去大概看看这些橘子可以分成几类,这样的有输入但是不知道输出的机器学习就可以叫做无监督学习;
三:强化学习
强化学习,可以这么理解,就是对应的某个领域的初步模型已经推导出来了,但是还有一些对应的场景它可能给出的答案不是很正确,但是经过我们测试人员的反馈,告诉它某些答案应该是怎么样的,让它自己知道对应的这个场景顺便去微调模型可以达到更好的适应,这不就是说这个模型对现实世界的适应性得到了更大的加强么,我们生活中强化学习运用比较多的领域是智能体,比如生活中的机器人
四:深度学习
深度学习,这里的深度可以理解成为模型的层数,为什么这样说呢?因为我们的现实世界中的一些场景是很复杂的,光靠上述的诸如y=ax1+bx2+cx3+dx4+...+nxn 很难适配这样的场景,既然一个这样的模型不行,那么来很多个函数呢,一个函数的输出作为另一个函数的输入,互相交叉,一个函数对应下游的多个函数,这样n*m 个函数不就构成了一张网么,在ai中也称之为人工神经网络,这里的一个个函数就像我们的大脑里的神经元似的,神经元互相之间构成了我们的神经网络,哈哈哈,数学是理解万物的语言不是吹的。
所以,我们可以假设好一个神经网络,然后给一堆样本和对应的结果,让机器不舍昼夜地自己去一步步地推导出这些个神经网络对应的每个神经元的模型,最终凑成了一个大的神经网络,这样的过程那就叫做深度学习了。
五:大模型
所以,大模型里面的那个模型就是我们所说的数学模型了,只不过不是单一的数学函数,是n多个复杂的数学函数的集合,大模型其实就是深度学习所对应的神经网络的数学模型集合了,是具有海量参数的模型集合,为啥之前深度学习出现了之后没有立马出现大模型呢,一个是当时对应的算力和数据不够充分,更大一部分是谷歌的那篇transformer的论文没有出现,哈哈哈,要知道原因且听下回分解。