类人脑的另一种计算 ——大语言模型large-lauguage-model——训练到推理三个过程

文章目录

[类人脑的另一种计算 ------大语言模型large-lauguage-model](#类人脑的另一种计算 ——大语言模型large-lauguage-model)

类人脑的另一种计算 ------大语言模型large-lauguage-model

第三章节：基础名词说完啦，去看一个模型的生命周期

AI大模型整个流程中训练到推理要三个过程

一、预训练

通过海量通用文本预训练，学习语言的通用规律（语法、语义、逻辑、常识），并把这些规律固化成模型参数，为后续具体任务提供 "通用语言能力

通过预训练的模型叫做基座模型，每个词的embedding以及这个词的qkv向量就在此时训练出来。

预训练流程：

给他一大堆一大堆的文章让他自己去读

比如gpt3这个基座模型有多个互联网文本做一个语料库学习：维基百科、书籍、文章等等等等

大模型把句子拆开、通过"分词器"拆分Token，把一句话分成多个Token(),逐个理解词的的意思。

不同模型的"分词器"不同，拆分出的Token也不一样。

一个token可以是一个词、半个词、一个标点符号、甚至是经常一起出现的多个词的一小段话。用token ID表达这个token

Token的拆分很重要，它会直接影响模型的性能，在这些token的基础上进行一个计算和推理

大模型处理文本的过程：先把句子拆成字，再理解每个字的意思，最后理解整句话的逻辑。只不过大模型的"拆字"和"理解"，是通过"Tokenization→Token ID→向量"这三个步骤完成的。

Token ID：给Token"编个号"

模型无法直接处理文本，只能处理数字。

Token ID只是一个"索引"，没有任何语义。

向量：给Token"注入语义"

真正让模型"理解"语义的。

再次转化 Token ID转换成一个"语义向量"，这个向量就像一个"语义坐标"，能体现Token的含义。

例子：

比如"猫"和"狗"的Embedding向量，在空间中距离很近，因为它们都是"宠物"；"猫"和"汽车"的向量距离很远，因为语义差异大。这样一来，模型通过计算向量之间的距离，就能判断两个Token的语义关联------这就是大模型"理解"语言的核心。

无监督：并不会知道，所以大模型只能分类（在未加标签情况下试图找到它的隐藏结构）

所以在无监督学习中：大模型会自行学习人类语言中的语法语义，了解表达结构和模式，有了大量无监督学习后就可以进行根据上文对下文的预测，具体就是：模型会根据看到的一部分文本然后基于上限文的常识去预测下一个token，然后比较正确答案和他的预测，模型再更新权重，随着见过的文本越多，生成也就越好，预训的结果就是得到一个基座模型，基座模型和gpt背后和人对话的模型还是有很大差别的

二、微调

基座模型此时还并不擅长对话，需要对它进行进一步的微调（会修改模型内部的一些参数，让模型更加适合特定的一个任务）

微调部分为监督学习，如使用深度神经网络（Transformer）去理解文本，在理解文本过程中将输入的文本设为x，预测的下一个词设为y

再通过前面说的线性回归、逻辑回归

计算这一层预测值对比正确值的均方误差、损失值，后通过链式法则、反向传播实现梯度下降，并不断更新模型参数的权重，使之预测概率越来越准。

也可以考虑培养侧重点，侧重模型功能方向、是多看对话数据还是多看代码功能。

三、推理

用户输入一句话，把这一句话切成多个token然后作为入参，推测出下一个词

再把下一个词合并到一句话的末尾再切成多个token然后作为入参，推测出下一个词

重复多次。。。

最后推测下一个词是结束符号。结束（可控制）

微调之后可以进行强化学习：让模型在环境中采取行动，并获得结果反馈，从反馈中继续学习，从而在特定情况中采取最佳行动反馈