datawhale 大模型学习 第四章-新模型架构

一、现状

GPT3 是一个通过96个Transformer block堆叠在一起的神经网络.即:

每一个TransformerBlock是一个多头注意力层的Block

目前大模型的规模已经到了极限(模型越大,需要训练资源和时间也就越长)

二、混合专家模型

混合专家模型通俗点讲就是:有N个专家,每个专家有各种的不同领域能力和模型参数,通过一个 门控制机制来给不同专家分配权重,最终汇总所有专家的结果。

优点:

1.专家与专家之间独立,可以并行计算

2.每个专家模型可以放置在不同的GPU机器上

三、基于检索的模型

3.1 去噪目标训练

就是在输入里面mask一些单子,然后在模型的输出里面吧mask掉的单词预测出来

输入: Thank you <X> me to your party <Y> week

输出:<X> for inviting <Y> last

3.2 检索方法

有一个文档集合库,里面是一群文档的集合:

基于检索的模型直观的生成过程:

  • 基于输入 xx ,检索相关序列 zz 。
  • 给定检索序列 zz 和输入 xx ,生成输出 yy 。

示例(开放问答):

  • 输入 xx :What is the capital of Canada?
  • 检索 zz :Ottawa is the capital city of Canada.
  • 输出 yy :Ottawa

最近邻是最常用的一种检索方法:

  • SS 是训练集。
  • 检索 (x',y') \in S(x′,y′)∈S ,使得 x'x′ 和 xx最相似。
  • 生成 y = y'y=y′ 。
相关推荐
阿阳微客5 小时前
Steam 搬砖项目深度拆解:从抵触到真香的转型之路
前端·笔记·学习·游戏
Chef_Chen10 小时前
从0开始学习R语言--Day18--分类变量关联性检验
学习
键盘敲没电10 小时前
【IOS】GCD学习
学习·ios·objective-c·xcode
海的诗篇_11 小时前
前端开发面试题总结-JavaScript篇(一)
开发语言·前端·javascript·学习·面试
AgilityBaby11 小时前
UE5 2D角色PaperZD插件动画状态机学习笔记
笔记·学习·ue5
AgilityBaby11 小时前
UE5 创建2D角色帧动画学习笔记
笔记·学习·ue5
武昌库里写JAVA12 小时前
iview Switch Tabs TabPane 使用提示Maximum call stack size exceeded堆栈溢出
java·开发语言·spring boot·学习·课程设计
一弓虽13 小时前
git 学习
git·学习
audyxiao00113 小时前
计算机视觉顶刊《International Journal of Computer Vision》2025年5月前沿热点可视化分析
图像处理·人工智能·opencv·目标检测·计算机视觉·大模型·视觉检测
Moonnnn.15 小时前
【单片机期末】串行口循环缓冲区发送
笔记·单片机·嵌入式硬件·学习