datawhale 大模型学习 第四章-新模型架构

一、现状

GPT3 是一个通过96个Transformer block堆叠在一起的神经网络.即:

每一个TransformerBlock是一个多头注意力层的Block

目前大模型的规模已经到了极限(模型越大,需要训练资源和时间也就越长)

二、混合专家模型

混合专家模型通俗点讲就是:有N个专家,每个专家有各种的不同领域能力和模型参数,通过一个 门控制机制来给不同专家分配权重,最终汇总所有专家的结果。

优点:

1.专家与专家之间独立,可以并行计算

2.每个专家模型可以放置在不同的GPU机器上

三、基于检索的模型

3.1 去噪目标训练

就是在输入里面mask一些单子,然后在模型的输出里面吧mask掉的单词预测出来

输入: Thank you <X> me to your party <Y> week

输出:<X> for inviting <Y> last

3.2 检索方法

有一个文档集合库,里面是一群文档的集合:

基于检索的模型直观的生成过程:

  • 基于输入 xx ,检索相关序列 zz 。
  • 给定检索序列 zz 和输入 xx ,生成输出 yy 。

示例(开放问答):

  • 输入 xx :What is the capital of Canada?
  • 检索 zz :Ottawa is the capital city of Canada.
  • 输出 yy :Ottawa

最近邻是最常用的一种检索方法:

  • SS 是训练集。
  • 检索 (x',y') \in S(x′,y′)∈S ,使得 x'x′ 和 xx最相似。
  • 生成 y = y'y=y′ 。
相关推荐
艾莉丝努力练剑17 分钟前
alarm系统调用的一次性原理揭秘
linux·运维·服务器·开发语言·网络·人工智能·学习
莱歌数字26 分钟前
元学习的核心思想
人工智能·科技·学习·制造·cae
210Brian39 分钟前
嘉立创EDA硬件设计与实战学习笔记(二):元件符号与封装的绘制
大数据·笔记·学习
山楂树の1 小时前
【计算机系统原理】Intel 与 AT&T 汇编指令格式转换
汇编·学习·缓存
努力学习的小廉1 小时前
redis学习笔记(九)—— Redis 持久化
redis·笔记·学习
小陈项目管理PMP1 小时前
2026年6月PMP考试:70天冲刺,这5个“备考误区”正在偷偷浪费你的时间
学习·项目管理·pmp
山楂树の2 小时前
【计算机系统原理】 直接映射(模映射) Cache 地址划分与访问过程
学习·缓存
爱喝白开水a2 小时前
春节后普通程序员如何“丝滑”跨行AI:不啃算法,也能拿走AI
java·人工智能·算法·spring·ai·前端框架·大模型
网络工程小王2 小时前
【Python数据分析基础】
大数据·数据库·人工智能·学习
FluxMelodySun2 小时前
机器学习(二十七) 降维:度量学习与随机梯度下降法求解
人工智能·学习·机器学习