datawhale 大模型学习第四章-新模型架构

fan_fan_feng2024-01-22 21:33

GPT3 是一个通过96个Transformer block堆叠在一起的神经网络.即：

每一个TransformerBlock是一个多头注意力层的Block

目前大模型的规模已经到了极限（模型越大，需要训练资源和时间也就越长）

混合专家模型通俗点讲就是：有N个专家，每个专家有各种的不同领域能力和模型参数，通过一个门控制机制来给不同专家分配权重，最终汇总所有专家的结果。

优点：

1.专家与专家之间独立，可以并行计算

2.每个专家模型可以放置在不同的GPU机器上

就是在输入里面mask一些单子，然后在模型的输出里面吧mask掉的单词预测出来

输入： Thank you <X> me to your party <Y> week

输出：<X> for inviting <Y> last

有一个文档集合库,里面是一群文档的集合：

基于检索的模型直观的生成过程：

示例（开放问答）：

最近邻是最常用的一种检索方法：

datawhale 大模型学习 第四章-新模型架构