datawhale 大模型学习 第四章-新模型架构

一、现状

GPT3 是一个通过96个Transformer block堆叠在一起的神经网络.即:

每一个TransformerBlock是一个多头注意力层的Block

目前大模型的规模已经到了极限(模型越大,需要训练资源和时间也就越长)

二、混合专家模型

混合专家模型通俗点讲就是:有N个专家,每个专家有各种的不同领域能力和模型参数,通过一个 门控制机制来给不同专家分配权重,最终汇总所有专家的结果。

优点:

1.专家与专家之间独立,可以并行计算

2.每个专家模型可以放置在不同的GPU机器上

三、基于检索的模型

3.1 去噪目标训练

就是在输入里面mask一些单子,然后在模型的输出里面吧mask掉的单词预测出来

输入: Thank you <X> me to your party <Y> week

输出:<X> for inviting <Y> last

3.2 检索方法

有一个文档集合库,里面是一群文档的集合:

基于检索的模型直观的生成过程:

  • 基于输入 xx ,检索相关序列 zz 。
  • 给定检索序列 zz 和输入 xx ,生成输出 yy 。

示例(开放问答):

  • 输入 xx :What is the capital of Canada?
  • 检索 zz :Ottawa is the capital city of Canada.
  • 输出 yy :Ottawa

最近邻是最常用的一种检索方法:

  • SS 是训练集。
  • 检索 (x',y') \in S(x′,y′)∈S ,使得 x'x′ 和 xx最相似。
  • 生成 y = y'y=y′ 。
相关推荐
warm3snow4 天前
Claude Code 黑客马拉松:5 个获奖项目,没有一个是"纯码农"做的
ai·大模型·llm·agent·skill·mcp
西岸行者6 天前
学习笔记:SKILLS 能帮助更好的vibe coding
笔记·学习
AI周红伟6 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
悠哉悠哉愿意6 天前
【单片机学习笔记】串口、超声波、NE555的同时使用
笔记·单片机·学习
别催小唐敲代码6 天前
嵌入式学习路线
学习
毛小茛7 天前
计算机系统概论——校验码
学习
babe小鑫7 天前
大专经济信息管理专业学习数据分析的必要性
学习·数据挖掘·数据分析
winfreedoms7 天前
ROS2知识大白话
笔记·学习·ros2
在这habit之下7 天前
Linux Virtual Server(LVS)学习总结
linux·学习·lvs
我想我不够好。7 天前
2026.2.25监控学习
学习