datawhale 大模型学习 第四章-新模型架构

一、现状

GPT3 是一个通过96个Transformer block堆叠在一起的神经网络.即:

每一个TransformerBlock是一个多头注意力层的Block

目前大模型的规模已经到了极限(模型越大,需要训练资源和时间也就越长)

二、混合专家模型

混合专家模型通俗点讲就是:有N个专家,每个专家有各种的不同领域能力和模型参数,通过一个 门控制机制来给不同专家分配权重,最终汇总所有专家的结果。

优点:

1.专家与专家之间独立,可以并行计算

2.每个专家模型可以放置在不同的GPU机器上

三、基于检索的模型

3.1 去噪目标训练

就是在输入里面mask一些单子,然后在模型的输出里面吧mask掉的单词预测出来

输入: Thank you <X> me to your party <Y> week

输出:<X> for inviting <Y> last

3.2 检索方法

有一个文档集合库,里面是一群文档的集合:

基于检索的模型直观的生成过程:

  • 基于输入 xx ,检索相关序列 zz 。
  • 给定检索序列 zz 和输入 xx ,生成输出 yy 。

示例(开放问答):

  • 输入 xx :What is the capital of Canada?
  • 检索 zz :Ottawa is the capital city of Canada.
  • 输出 yy :Ottawa

最近邻是最常用的一种检索方法:

  • SS 是训练集。
  • 检索 (x',y') \in S(x′,y′)∈S ,使得 x'x′ 和 xx最相似。
  • 生成 y = y'y=y′ 。
相关推荐
Bathwind-w5 小时前
FOC开发工具学习
学习
Coder_Boy_5 小时前
DDD从0到企业级:迭代式学习 (共17章)之 四
java·人工智能·驱动开发·学习
deng-c-f5 小时前
Linux C/C++ 学习日记(49):线程池
c++·学习·线程池
HyperAI超神经6 小时前
【vLLM 学习】Prithvi Geospatial Mae
人工智能·python·深度学习·学习·大语言模型·gpu·vllm
TL滕8 小时前
从0开始学算法——第十八天(分治算法)
笔记·学习·算法
思成不止于此8 小时前
【MySQL 零基础入门】MySQL 约束精讲(一):基础约束篇
数据库·笔记·sql·学习·mysql
小黄人软件8 小时前
【过度滥用眼】真正的理解,从闭眼开始:如何把“眼睛视觉依赖”降到最低,把大脑效率提到最高。【最少用眼的工作与学习体系】
学习
老华带你飞9 小时前
建筑材料管理|基于springboot 建筑材料管理系统(源码+数据库+文档)
java·数据库·vue.js·spring boot·后端·学习·spring
L.fountain9 小时前
图像自回归生成(Auto-regressive image generation)实战学习(一)
人工智能·深度学习·学习·计算机视觉·图像自回归
TL滕10 小时前
从0开始学算法——第十八天(分治算法练习)
笔记·学习·算法