moe

DO_Community9 天前
人工智能·算法·llm·aigc·moe·aiter
技术解码:Character.ai 如何实现大模型实时推理性能 2 倍提升Character.ai 是一家领先的 AI 娱乐平台,全球用户约 2000 万。Character.ai 团队希望提升 GPU 性能,并降低推理成本。其应用需要在大规模场景下保持极低延迟。为实现这一目标,Character.ai 找到了 DigitalOcean 和 AMD。三方紧密合作,对 AMD Instinct™ MI300X 和 MI325X GPU 平台进行了深度优化,使生产环境的推理吞吐量提升了 2 倍。
一个处女座的程序猿9 天前
llm·moe·thinking
LLMs之MoE之Thinking:LongCat-Flash-Thinking-2601的简介、安装和使用方法、案例应用之详细攻略LLMs之MoE之Thinking:LongCat-Flash-Thinking-2601的简介、安装和使用方法、案例应用之详细攻略
M宝可梦13 天前
transformer·memory·hash·moe·记忆·deepseek·engram
Engram: DeepSeek最新工作解读1.从MLA,到NSA,DSA(lightning Indexer),DeepSeek做了很多稀疏化的工作,从计算层面更加高效,节省,试图压榨尽所有的硬件资源; 2.从transformer到MoE------谁来算 但是对于一些简单问题,稠密模型可能存在资源浪费的情况,因为需要不加区分的过一遍所有参数,这对于小模型或许可以接受,但是对于超大量参数的模型难以忍受,因此转为只对部分参数激活; 3.从MoE到Engram------一定程度解耦计算和记忆 过去的transformer只有显示的链接,计算,没有
山顶夕景14 天前
llm·moe·知识检索·engram
【LLM】deepseek之Engram模型(增加条件记忆模块)【Deepseek进展】给大语言模型加了个“快速查知识的小模块”。也就是条件记忆模块,实现上,融合静态N-gram嵌入与动态隐藏状态,通过确定性寻址实现O(1)查找,以可扩展查找,作为混合专家(MoE)之外的新稀疏性维度。如此一来,原来的模型(比如MoE架构)靠“实时计算”处理信息,这个模块补了个“静态记忆库”,存着常用的短语、知识片段,后续一键调取,不用重复计算。
minhuan1 个月前
moe·混合专家模型·大模型应用
大模型应用:混合专家模型(MoE):大模型性能提升的关键技术拆解.37最近我们强化学习了很多大模型相关知识,应该也注意到了“MoE”这个词,比如什么模型用了MoE架构,MoE让大模型性能得到大幅提升等等,我们初看一扫而过,再看一脸懵逼,那MoE到底是什么?为什么它这么重要?今天就用简单的视角,基础原理和代码演示,一起探究MoE的核心知识!
喜欢吃豆1 个月前
人工智能·语言模型·架构·moe
大语言模型混合专家(MoE)架构深度技术综述—— 理论前沿、系统工程与应用实践在人工智能的发展历程中,模型规模的扩张(Scaling)已被证实是提升模型性能、解锁涌现能力(Emergent Capabilities)的最有效途径之一。然而,随着模型规模突破千亿(100B+)大关,传统的稠密(Dense)Transformer 架构面临着边际效应递减的挑战。在此背景下,混合专家(Mixture-of-Experts, MoE) 架构作为一种“条件计算”范式,凭借其在扩大模型容量的同时保持计算成本可控的特性,成为了大模型领域的绝对核心技术。
阿杰学AI1 个月前
人工智能·ai·语言模型·aigc·ai-native·moe·混合专家模型
AI核心知识57——大语言模型之MoE(简洁且通俗易懂版)MoE 是 Mixture of Experts(混合专家模型)的缩写。它是目前解决大模型 “既要变得超级聪明(参数量大),又要跑得快(推理成本低)” 这个矛盾的核心架构技术。
Bruce-XIAO2 个月前
人工智能·语言模型·moe
MOE-混合专家架构论文阅读混合专家(MOE)是大模型一种主流的模型架构,相比稠密模型,MOE的训练速度更快,在同样的参数量下,有更快的推理速度,同时,MOE以多专家的形式扩展了模型容量,能达到较好的效果。
tiger1192 个月前
人工智能·llm·推理·moe·decode·deepseek·prefill
DeepSeek V3.1 的推理解析之前仔细学习过大模型的推理解析,但只是针对通用的早期大模型,并没有针对目前流行的MoE的在模型的推理进行解析。比如:DeepSeek。也就是针对通用的早期Transformer架构进行了学习。
2401_841495642 个月前
人工智能·深度学习·机器学习·自然语言处理·大语言模型·moe·混合专家模型
MoE算法深度解析:从理论架构到行业实践目录一、引言二、MoE算法的基础理论三、MoE算法的核心架构设计(一)专家网络的专业化分工(二)门控网络的动态路由机制
爱听歌的周童鞋3 个月前
llm·router·moe·cs336·deepseek-moe
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 4: Mixtrue of experts学习斯坦福的 CS336 课程,本篇文章记录课程第四讲:混合专家模型,记录下个人学习笔记,仅供自己参考😄
西西弗Sisyphus3 个月前
语言模型·transformer·moe
一个基于稀疏混合专家模型(Sparse Mixture of Experts, Sparse MoE) 的 Transformer 语言模型flyfish用稀疏混合专家(Sparse MoE)替代传统Transformer的全连接层一个基于稀疏混合专家模型(Sparse Mixture of Experts, Sparse MoE) 的Transformer语言模型
小毕超4 个月前
pytorch·transformer·moe
基于 PyTorch 完全从零手搓 GPT 混合专家 (MOE) 对话模型混合专家模型(MOE)是一种 Transformer 神经网络架构的变种,如 Switch Transformers 结构 ,它通过一个门控网络为每个输入动态地选择一小部分 “专家” 子网络进行计算,从而以稀疏激活的方式提升模型容量与计算效率。能够控制模型总参数量极大的情况下,单次前向传播的计算能保持在一个可控范围内。核心特点在于其 高参数、低计算 的稀疏性。与稠密模型在处理每个输入时激活所有参数不同,MOE模型仅激活总参数的一小部分 ,并且能够随着专家的增加容纳更加丰富的知识和更强的泛化能力。像 Mix
贾全4 个月前
人工智能·负载均衡·大语言模型·路由·moe·多模态ai·门控
MoE 的“大脑”与“指挥官”:深入理解门控、路由与负载均衡在上一篇文章中,我们通过“专家委员会”的类比,对 Mixture of Experts (MoE) 建立了直观的认识。本文将深入 MoE 的技术心脏,详细拆解其三大核心机制:门控网络 (Gating Network)、路由算法 (Routing Algorithm) 和 负载均衡 (Load Balancing)。我们将从数学原理出发,逐步推导门控网络如何做出决策,探讨 Top-k 路由如何高效地分配任务,并解释为何负载均衡对于训练一个成功的 MoE 模型至关重要。最后,我们会通过一个 PyTorch 代
寻丶幽风8 个月前
论文阅读·人工智能·语言模型·lora·图像编辑·moe
论文阅读笔记——In-Context EditICEdit 论文阅读笔记 指令图像编辑现有方法的局限:将编辑指令嵌入专为语境化编辑设计的生成提示中,构建如下提示模板:“a side-by-side image of the same {subject}: the left depicts the original {description}, while the right mirrors the left but applies {edit instruction}.” 分析 IC 提示下编辑指令对应的注意力图,发现待修改区域呈现更显著的激活值。借
庞德公8 个月前
人工智能·计算机视觉·大模型·并行计算·moe
PARSCALE:大语言模型的第三种扩展范式----->更多内容,请移步“鲁班秘笈”!!<-----随着人工智能技术的飞速发展,大语言模型(LLM)已成为推动机器智能向通用人工智能(AGI)迈进的核心驱动力。然而,传统的模型扩展方法正面临着前所未有的挑战:参数扩展需要巨大的存储空间,推理时扩展则带来显著的时间成本。在这一背景下,最近有研究团队提出了一种全新的扩展范式——PARSCALE(并行扩展),为大语言模型的发展开辟了第三条道路。
阿里云大数据AI技术9 个月前
copilot·dataworks·moe·mcp·qwen3
DataWorks Copilot 集成 Qwen3-235B-A22B混合推理模型,AI 效能再升级!刚刚,阿里云一站式智能大数据开发治理平台 DataWorks 正式接入 Qwen3 模型,可支持235B最大尺寸。用户通过 DataWorks Copilot 智能助手即可调用该模型,通过自然语言交互完成多种代码操作,实现数据开发、数据分析的快速实现。
寻丶幽风9 个月前
论文阅读·笔记·语言模型·llama·moe
论文阅读笔记——Mixtral of ExpertsMixtral 8×7B 论文 这个模型建立在 Mistral 7B 的架构上,但每层由8个前馈模块(即专家)组成。对于每个 token,路由网络在每层选择两个专家来处理当前状态并合并它们的输出。尽管每个 token 只能看到 2 个专家,但在每个时间步骤上选择的专家可以不同。因此虽然在推理过程中只能使用 13B 个活跃参数,但在访问过程中每个 token 可以访问 47B 个参数。
kngines10 个月前
人工智能·transformer·n-gram·提示工程·moe·大预言模型·混合专家
从零构建大语言模型全栈开发指南:第一部分:数学与理论基础-1.1.1语言模型演进:从N-gram到Transformer👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路语言模型(Language Model)作为自然语言处理(NLP)领域的核心基础,其发展历程深刻影响着人工智能技术的演进。本章将系统解析语言模型从统计学习到深度学习的关键跃迁,并聚焦GPT系列模型的技术突破。