一、现状
GPT3 是一个通过96个Transformer block堆叠在一起的神经网络.即:
每一个TransformerBlock是一个多头注意力层的Block
目前大模型的规模已经到了极限(模型越大,需要训练资源和时间也就越长)
二、混合专家模型
混合专家模型通俗点讲就是:有N个专家,每个专家有各种的不同领域能力和模型参数,通过一个 门控制机制来给不同专家分配权重,最终汇总所有专家的结果。
优点:
1.专家与专家之间独立,可以并行计算
2.每个专家模型可以放置在不同的GPU机器上
三、基于检索的模型
3.1 去噪目标训练
就是在输入里面mask一些单子,然后在模型的输出里面吧mask掉的单词预测出来
输入: Thank you <X> me to your party <Y> week
输出:<X> for inviting <Y> last
3.2 检索方法
有一个文档集合库,里面是一群文档的集合:
基于检索的模型直观的生成过程:
- 基于输入 xx ,检索相关序列 zz 。
- 给定检索序列 zz 和输入 xx ,生成输出 yy 。
示例(开放问答):
- 输入 xx :What is the capital of Canada?
- 检索 zz :Ottawa is the capital city of Canada.
- 输出 yy :Ottawa
最近邻是最常用的一种检索方法:
- SS 是训练集。
- 检索 (x',y') \in S(x′,y′)∈S ,使得 x'x′ 和 xx最相似。
- 生成 y = y'y=y′ 。