大模型架构演进:从Transformer到MoE

大模型架构演进:从Transformer到MoE

一、 Transformer的辉煌与局限

二、 MoE:用"稀疏激活"撬动模型容量

三、 MoE为何成为大模型新范式?

四、 典型实践:从GLaM到Qwen-MoE

五、 挑战与未来方向

相关推荐
宁远x2 小时前
Flash Attention原理介绍与使用方法
人工智能·深度学习·机器学习
琅琊榜首20203 小时前
AI+编程思维:高质量短剧脚本高效撰写实操指南
大数据·人工智能·深度学习
十铭忘6 小时前
个人思考3——世界动作模型
人工智能·深度学习·计算机视觉
kkkkkkkkk_12016 小时前
【强化学习】09周博磊强化学习纲要学习笔记——第五课上
笔记·深度学习·学习·强化学习
相思半7 小时前
告别聊天机器人!2026 智能体元年:Claude 4.6 vs GPT-5.3 vs OpenClaw 全方位对比
人工智能·gpt·深度学习·claude·codex·智能体·seedance
人工智能培训7 小时前
大模型架构演进:从Transformer到MoE
人工智能·深度学习·大模型·transformer·知识图谱·具身智能·人工智能 培训
查无此人byebye8 小时前
实战DDPM扩散模型:MNIST手写数字生成+FID分数计算(完整可运行版)
人工智能·pytorch·python·深度学习·音视频
AI周红伟8 小时前
周红伟:SeedDance 2技术架构和技术原理
人工智能·深度学习·算法
宁远x8 小时前
【VeRL】Qwen3-30B-A3B-DAPO NPU实践指导
人工智能·深度学习·强化学习