大模型架构演进:从Transformer到MoE

  • Transformer的辉煌与局限
  • MoE:用"稀疏激活"撬动模型容量
  • MoE为何成为大模型新范式?
  • 典型实践:从GLaM到Qwen-MoE
  • 挑战与未来方向

#Transformer#MoE(混合专家)#稀疏激活#专家#模型容量

相关推荐
A小码哥2 分钟前
ARC-AGI-2:抽象推理与泛化能力的终极测试
人工智能·agi
梯度下降中4 分钟前
LoRA原理精讲
人工智能·算法·机器学习
晚秋贰拾伍10 分钟前
科技周刊08-微博上线国内社交平台首个AI社区
人工智能·科技
小陈工15 分钟前
2026年3月28日技术资讯洞察:5G-A边缘计算落地、低延迟AI推理革命与工业智造新范式
开发语言·人工智能·后端·python·5g·安全·边缘计算
openFuyao17 分钟前
openFuyao亮相KubeCon Europe 2026 携InferNex套件深耕AI云原生推理领域
人工智能·云原生
剑穗挂着新流苏31218 分钟前
203_深度学习的第一步:线性回归模型与 SGD 优化算法实战
人工智能·深度学习·机器学习
是枚小菜鸡儿吖32 分钟前
卷不动了?带你拆解 2026 深度学习核心版图:CNN、Transformer 与扩散模型的实战进化
深度学习·cnn·transformer
泯泷33 分钟前
当AI排行榜成为一场数字游戏
人工智能·产品
神一样的老师34 分钟前
【RT-Thread Titan Board 开发板】家庭AI相框
人工智能
靴子学长1 小时前
Decoder only 架构下 - KV cache 的理解
pytorch·深度学习·算法·大模型·kv