技术栈
moe
阿杰学AI
6 小时前
人工智能
·
ai
·
语言模型
·
aigc
·
ai-native
·
moe
·
混合专家模型
AI核心知识57——大语言模型之MoE(简洁且通俗易懂版)
MoE 是 Mixture of Experts(混合专家模型)的缩写。它是目前解决大模型 “既要变得超级聪明(参数量大),又要跑得快(推理成本低)” 这个矛盾的核心架构技术。
Bruce-XIAO
9 天前
人工智能
·
语言模型
·
moe
MOE-混合专家架构论文阅读
混合专家(MOE)是大模型一种主流的模型架构,相比稠密模型,MOE的训练速度更快,在同样的参数量下,有更快的推理速度,同时,MOE以多专家的形式扩展了模型容量,能达到较好的效果。
tiger119
13 天前
人工智能
·
llm
·
推理
·
moe
·
decode
·
deepseek
·
prefill
DeepSeek V3.1 的推理解析
之前仔细学习过大模型的推理解析,但只是针对通用的早期大模型,并没有针对目前流行的MoE的在模型的推理进行解析。比如:DeepSeek。也就是针对通用的早期Transformer架构进行了学习。
2401_84149564
1 个月前
人工智能
·
深度学习
·
机器学习
·
自然语言处理
·
大语言模型
·
moe
·
混合专家模型
MoE算法深度解析:从理论架构到行业实践
目录一、引言二、MoE算法的基础理论三、MoE算法的核心架构设计(一)专家网络的专业化分工(二)门控网络的动态路由机制
爱听歌的周童鞋
2 个月前
llm
·
router
·
moe
·
cs336
·
deepseek-moe
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 4: Mixtrue of experts
学习斯坦福的 CS336 课程,本篇文章记录课程第四讲:混合专家模型,记录下个人学习笔记,仅供自己参考😄
西西弗Sisyphus
2 个月前
语言模型
·
transformer
·
moe
一个基于稀疏混合专家模型(Sparse Mixture of Experts, Sparse MoE) 的 Transformer 语言模型
flyfish用稀疏混合专家(Sparse MoE)替代传统Transformer的全连接层一个基于稀疏混合专家模型(Sparse Mixture of Experts, Sparse MoE) 的Transformer语言模型
小毕超
3 个月前
pytorch
·
transformer
·
moe
基于 PyTorch 完全从零手搓 GPT 混合专家 (MOE) 对话模型
混合专家模型(MOE)是一种 Transformer 神经网络架构的变种,如 Switch Transformers 结构 ,它通过一个门控网络为每个输入动态地选择一小部分 “专家” 子网络进行计算,从而以稀疏激活的方式提升模型容量与计算效率。能够控制模型总参数量极大的情况下,单次前向传播的计算能保持在一个可控范围内。核心特点在于其 高参数、低计算 的稀疏性。与稠密模型在处理每个输入时激活所有参数不同,MOE模型仅激活总参数的一小部分 ,并且能够随着专家的增加容纳更加丰富的知识和更强的泛化能力。像 Mix
贾全
3 个月前
人工智能
·
负载均衡
·
大语言模型
·
路由
·
moe
·
多模态ai
·
门控
MoE 的“大脑”与“指挥官”:深入理解门控、路由与负载均衡
在上一篇文章中,我们通过“专家委员会”的类比,对 Mixture of Experts (MoE) 建立了直观的认识。本文将深入 MoE 的技术心脏,详细拆解其三大核心机制:门控网络 (Gating Network)、路由算法 (Routing Algorithm) 和 负载均衡 (Load Balancing)。我们将从数学原理出发,逐步推导门控网络如何做出决策,探讨 Top-k 路由如何高效地分配任务,并解释为何负载均衡对于训练一个成功的 MoE 模型至关重要。最后,我们会通过一个 PyTorch 代
寻丶幽风
7 个月前
论文阅读
·
人工智能
·
语言模型
·
lora
·
图像编辑
·
moe
论文阅读笔记——In-Context Edit
ICEdit 论文阅读笔记 指令图像编辑现有方法的局限:将编辑指令嵌入专为语境化编辑设计的生成提示中,构建如下提示模板:“a side-by-side image of the same {subject}: the left depicts the original {description}, while the right mirrors the left but applies {edit instruction}.” 分析 IC 提示下编辑指令对应的注意力图,发现待修改区域呈现更显著的激活值。借
庞德公
7 个月前
人工智能
·
计算机视觉
·
大模型
·
并行计算
·
moe
PARSCALE:大语言模型的第三种扩展范式
----->更多内容,请移步“鲁班秘笈”!!<-----随着人工智能技术的飞速发展,大语言模型(LLM)已成为推动机器智能向通用人工智能(AGI)迈进的核心驱动力。然而,传统的模型扩展方法正面临着前所未有的挑战:参数扩展需要巨大的存储空间,推理时扩展则带来显著的时间成本。在这一背景下,最近有研究团队提出了一种全新的扩展范式——PARSCALE(并行扩展),为大语言模型的发展开辟了第三条道路。
阿里云大数据AI技术
8 个月前
copilot
·
dataworks
·
moe
·
mcp
·
qwen3
DataWorks Copilot 集成 Qwen3-235B-A22B混合推理模型,AI 效能再升级!
刚刚,阿里云一站式智能大数据开发治理平台 DataWorks 正式接入 Qwen3 模型,可支持235B最大尺寸。用户通过 DataWorks Copilot 智能助手即可调用该模型,通过自然语言交互完成多种代码操作,实现数据开发、数据分析的快速实现。
寻丶幽风
8 个月前
论文阅读
·
笔记
·
语言模型
·
llama
·
moe
论文阅读笔记——Mixtral of Experts
Mixtral 8×7B 论文 这个模型建立在 Mistral 7B 的架构上,但每层由8个前馈模块(即专家)组成。对于每个 token,路由网络在每层选择两个专家来处理当前状态并合并它们的输出。尽管每个 token 只能看到 2 个专家,但在每个时间步骤上选择的专家可以不同。因此虽然在推理过程中只能使用 13B 个活跃参数,但在访问过程中每个 token 可以访问 47B 个参数。
kngines
9 个月前
人工智能
·
transformer
·
n-gram
·
提示工程
·
moe
·
大预言模型
·
混合专家
从零构建大语言模型全栈开发指南:第一部分:数学与理论基础-1.1.1语言模型演进:从N-gram到Transformer
👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路语言模型(Language Model)作为自然语言处理(NLP)领域的核心基础,其发展历程深刻影响着人工智能技术的演进。本章将系统解析语言模型从统计学习到深度学习的关键跃迁,并聚焦GPT系列模型的技术突破。
Luchang-Li
9 个月前
routing
·
moe
·
deepseek
DeepSeek group-limited expert routing和负载均衡
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/inference/model.py
youcans_
10 个月前
人工智能
·
深度学习
·
大语言模型
·
moe
·
deepseek
【DeepSeek论文精读】3. DeepSeekMoE:迈向混合专家语言模型的终极专业化
欢迎关注[【AIGC论文精读】](https://blog.csdn.net/youcans/category_12321605.html)原创作品 【DeepSeek论文精读】1. 从 DeepSeek LLM 到 DeepSeek R1 【DeepSeek论文精读】2. DeepSeek LLM:以长期主义扩展开源语言模型 【DeepSeek论文精读】3. DeepSeekMoE:迈向混合专家语言模型的终极专业化 【DeepSeek论文精读】4. DeepSeek-V2:强大、经济且高效的混合专家语言
斐夷所非
10 个月前
moe
稀疏混合专家架构语言模型(MoE)
注:本文为 “稀疏混合专家架构语言模型(MoE)” 相关文章合辑。机器之心 2024年02月11日 12:21 河南
AI明说
1 年前
人工智能
·
大模型
·
moe
·
豆包
什么是稀疏 MoE?Doubao-1.5-pro 如何以少胜多?
目前人工智能领域的大模型军备竞赛愈演愈烈,模型的参数量不断攀升,性能也随之水涨船高。然而,庞大的模型也带来了巨大的计算开销和部署难题,这让业界开始探索更加高效的模型架构。在这样的背景下,稀疏混合专家(Sparse Mixture of Experts,简称稀疏 MoE)架构脱颖而出,成为大模型发展的新宠儿。那么,什么是稀疏 MoE?它又有何神奇之处?它如何帮助大模型在性能和效率之间取得平衡?本文将为您揭开稀疏 MoE 的神秘面纱,并以字节跳动最新发布的 Doubao-1.5-pro 大模型为例,深入剖析其
&永恒的星河&
1 年前
人工智能
·
语言模型
·
自然语言处理
·
chatgpt
·
moe
·
llms
Hunyuan-Large:推动AI技术进步的下一代语言模型
腾讯近期推出了基于Transformer架构的混合专家(MoE)模型——Hunyuan-Large(Hunyuan-MoE-A52B)。该模型目前是业界开源的最大MoE模型之一,拥有3890亿总参数和520亿激活参数,展示了极强的计算能力和资源优化优势。
伊织code
2 年前
llm
·
nvidia
·
moe
·
多专家
在 LLM 架构中应用多专家模型
本文转载自:在 LLM 架构中应用多专家模型 2024年 3月 14日 By Kyle Kranen and Vinh Nguyen https://developer.nvidia.cn/zh-cn/blog/applying-mixture-of-experts-in-llm-architectures/