datawhale 大模型学习 第四章-新模型架构

一、现状

GPT3 是一个通过96个Transformer block堆叠在一起的神经网络.即:

每一个TransformerBlock是一个多头注意力层的Block

目前大模型的规模已经到了极限(模型越大,需要训练资源和时间也就越长)

二、混合专家模型

混合专家模型通俗点讲就是:有N个专家,每个专家有各种的不同领域能力和模型参数,通过一个 门控制机制来给不同专家分配权重,最终汇总所有专家的结果。

优点:

1.专家与专家之间独立,可以并行计算

2.每个专家模型可以放置在不同的GPU机器上

三、基于检索的模型

3.1 去噪目标训练

就是在输入里面mask一些单子,然后在模型的输出里面吧mask掉的单词预测出来

输入: Thank you <X> me to your party <Y> week

输出:<X> for inviting <Y> last

3.2 检索方法

有一个文档集合库,里面是一群文档的集合:

基于检索的模型直观的生成过程:

  • 基于输入 xx ,检索相关序列 zz 。
  • 给定检索序列 zz 和输入 xx ,生成输出 yy 。

示例(开放问答):

  • 输入 xx :What is the capital of Canada?
  • 检索 zz :Ottawa is the capital city of Canada.
  • 输出 yy :Ottawa

最近邻是最常用的一种检索方法:

  • SS 是训练集。
  • 检索 (x',y') \in S(x′,y′)∈S ,使得 x'x′ 和 xx最相似。
  • 生成 y = y'y=y′ 。
相关推荐
武子康1 分钟前
大数据-212 数据挖掘 机器学习理论 - 无监督学习算法 KMeans 基本原理 簇内误差平方和
大数据·人工智能·学习·算法·机器学习·数据挖掘
使者大牙11 分钟前
【大语言模型学习笔记】第一篇:LLM大规模语言模型介绍
笔记·学习·语言模型
As977_33 分钟前
前端学习Day12 CSS盒子的定位(相对定位篇“附练习”)
前端·css·学习
ajsbxi36 分钟前
苍穹外卖学习记录
java·笔记·后端·学习·nginx·spring·servlet
Rattenking37 分钟前
React 源码学习01 ---- React.Children.map 的实现与应用
javascript·学习·react.js
dsywws1 小时前
Linux学习笔记之时间日期和查找和解压缩指令
linux·笔记·学习
道法自然04021 小时前
Ethernet 系列(8)-- 基础学习::ARP
网络·学习·智能路由器
爱吃生蚝的于勒1 小时前
深入学习指针(5)!!!!!!!!!!!!!!!
c语言·开发语言·数据结构·学习·计算机网络·算法
cuisidong19973 小时前
5G学习笔记三之物理层、数据链路层、RRC层协议
笔记·学习·5g
南宫理的日知录3 小时前
99、Python并发编程:多线程的问题、临界资源以及同步机制
开发语言·python·学习·编程学习