moe

Luca_kill2 天前
大模型·moe·deepseek·ai架构·v4·混合注意力·流形约束
深度拆解 DeepSeek V4:混合注意力 + 流形约束超连接如何重塑万亿 MoE 架构2026 年 4 月 24 日,DeepSeek V4 预览版正式发布,同步开源了 V4-Pro(总参数 1.6 万亿,激活 490 亿)和 V4-Flash(总参数 2840 亿,激活 130 亿)两个版本。这组数据本身已经足够震撼,但更让技术圈沸腾的是它交出的成绩单:
薛定谔的猫3693 天前
深度学习·ai·llm·machine learning·moe·deepseek
DeepSeek-V3 模型架构与训练技术深度解析随着大规模语言模型(LLM)技术的飞速发展,DeepSeek-V3 作为国产大模型领域的领军者,凭借其卓越的性能和极高的训练效率引起了广泛关注。本文旨在深入剖析 DeepSeek-V3 的底层架构设计,重点解析其如何通过优化混合专家模型(MoE)和创新性的训练策略,实现性能与成本的平衡。
litble5 天前
人工智能·大模型·llm·moe·kv-cache·pre-ln
如何速成LLM以伪装成一个AI研究者(2)——Pre-LN,KV-Cache优化,MoE如何速成LLM以伪装成一个AI研究者(1)——循环,卷积,编解码器,注意力,Transformer免责声明:作者也是伪装的,有错漏属于正常现象,欢迎评论指正。
阿杰学AI12 天前
人工智能·ai·语言模型·智能路由器·aigc·moe·混合专家架构
AI核心知识125—大语言模型之 混合专家架构(简洁且通俗易懂版)MoE (Mixture of Experts, 混合专家架构) 是大模型突破“物理极限”、实现千亿甚至万亿参数的终极扩容魔法。
Flying pigs~~25 天前
gpt·chatgpt·llm·llama·moe·deepseek·混合专家模式
主流大模型介绍(GPT、Llama、ChatGLM、Qwen、deepseek)发布者:OpenAI(2022年11月30日)类型:聊天机器人模型,基于自然语言处理技术核心能力:理解语言、生成对话、撰写邮件/文案/代码、翻译等
三点水-here2 个月前
分布式·rdma·nccl·moe·流水线并行·张量并行·专家并行
04 - 分布式大模型推理实战:TP/PP/EP并行策略深度解析本文是《大模型推理框架深度解析》系列的第四篇,详解张量并行、流水线并行与专家并行的原理与配置。当你的模型从7B扩展到70B、405B,单卡显存已经无法满足需求时,分布式推理成为必然选择。但面对TP、PP、EP等各种并行策略,很多开发者感到困惑:
AI资源库3 个月前
langchain·cot·ai agent·moe·lmdeploy·intern-s1-pro·open source llm
Intern-S1-Pro模型深入解析我们将文件分为三大类,并解释它们如何像齿轮一样咬合。为了让你更直观地理解,我们将 Intern-S1-Pro 比作一个拥有超级大脑的科研团队。
马武寨山的猴子3 个月前
架构·transformer·moe·ktransformers·sglang
【KTransformers+SGLang】:异构推理架构融合与性能实测全解析期望使用KTransformers的将部分模型加载到内存和cpu上,达到在GPU资源比较匮乏的情况下运行一些超过显存的模型,并且达到一定的token数,可以多人同时使用
其美杰布-富贵-李3 个月前
笔记·学习·moe·门控神经网络
门控模型与Mixture of Experts (MOE) 学习笔记门控机制基础MOE核心原理经典MOE架构PyTorch实现您的场景:ODE+MLP门控融合工程实践扩展阅读
DO_Community3 个月前
人工智能·算法·llm·aigc·moe·aiter
技术解码:Character.ai 如何实现大模型实时推理性能 2 倍提升Character.ai 是一家领先的 AI 娱乐平台,全球用户约 2000 万。Character.ai 团队希望提升 GPU 性能,并降低推理成本。其应用需要在大规模场景下保持极低延迟。为实现这一目标,Character.ai 找到了 DigitalOcean 和 AMD。三方紧密合作,对 AMD Instinct™ MI300X 和 MI325X GPU 平台进行了深度优化,使生产环境的推理吞吐量提升了 2 倍。
一个处女座的程序猿3 个月前
llm·moe·thinking
LLMs之MoE之Thinking:LongCat-Flash-Thinking-2601的简介、安装和使用方法、案例应用之详细攻略LLMs之MoE之Thinking:LongCat-Flash-Thinking-2601的简介、安装和使用方法、案例应用之详细攻略
M宝可梦3 个月前
transformer·memory·hash·moe·记忆·deepseek·engram
Engram: DeepSeek最新工作解读1.从MLA,到NSA,DSA(lightning Indexer),DeepSeek做了很多稀疏化的工作,从计算层面更加高效,节省,试图压榨尽所有的硬件资源; 2.从transformer到MoE------谁来算 但是对于一些简单问题,稠密模型可能存在资源浪费的情况,因为需要不加区分的过一遍所有参数,这对于小模型或许可以接受,但是对于超大量参数的模型难以忍受,因此转为只对部分参数激活; 3.从MoE到Engram------一定程度解耦计算和记忆 过去的transformer只有显示的链接,计算,没有
山顶夕景3 个月前
llm·moe·知识检索·engram
【LLM】deepseek之Engram模型(增加条件记忆模块)【Deepseek进展】给大语言模型加了个“快速查知识的小模块”。也就是条件记忆模块,实现上,融合静态N-gram嵌入与动态隐藏状态,通过确定性寻址实现O(1)查找,以可扩展查找,作为混合专家(MoE)之外的新稀疏性维度。如此一来,原来的模型(比如MoE架构)靠“实时计算”处理信息,这个模块补了个“静态记忆库”,存着常用的短语、知识片段,后续一键调取,不用重复计算。
minhuan4 个月前
moe·混合专家模型·大模型应用
大模型应用:混合专家模型(MoE):大模型性能提升的关键技术拆解.37最近我们强化学习了很多大模型相关知识,应该也注意到了“MoE”这个词,比如什么模型用了MoE架构,MoE让大模型性能得到大幅提升等等,我们初看一扫而过,再看一脸懵逼,那MoE到底是什么?为什么它这么重要?今天就用简单的视角,基础原理和代码演示,一起探究MoE的核心知识!
喜欢吃豆4 个月前
人工智能·语言模型·架构·moe
大语言模型混合专家(MoE)架构深度技术综述—— 理论前沿、系统工程与应用实践在人工智能的发展历程中,模型规模的扩张(Scaling)已被证实是提升模型性能、解锁涌现能力(Emergent Capabilities)的最有效途径之一。然而,随着模型规模突破千亿(100B+)大关,传统的稠密(Dense)Transformer 架构面临着边际效应递减的挑战。在此背景下,混合专家(Mixture-of-Experts, MoE) 架构作为一种“条件计算”范式,凭借其在扩大模型容量的同时保持计算成本可控的特性,成为了大模型领域的绝对核心技术。
阿杰学AI4 个月前
人工智能·ai·语言模型·aigc·ai-native·moe·混合专家模型
AI核心知识57——大语言模型之MoE(简洁且通俗易懂版)MoE 是 Mixture of Experts(混合专家模型)的缩写。它是目前解决大模型 “既要变得超级聪明(参数量大),又要跑得快(推理成本低)” 这个矛盾的核心架构技术。
Bruce-XIAO5 个月前
人工智能·语言模型·moe
MOE-混合专家架构论文阅读混合专家(MOE)是大模型一种主流的模型架构,相比稠密模型,MOE的训练速度更快,在同样的参数量下,有更快的推理速度,同时,MOE以多专家的形式扩展了模型容量,能达到较好的效果。
tiger1195 个月前
人工智能·llm·推理·moe·decode·deepseek·prefill
DeepSeek V3.1 的推理解析之前仔细学习过大模型的推理解析,但只是针对通用的早期大模型,并没有针对目前流行的MoE的在模型的推理进行解析。比如:DeepSeek。也就是针对通用的早期Transformer架构进行了学习。
2401_841495645 个月前
人工智能·深度学习·机器学习·自然语言处理·大语言模型·moe·混合专家模型
MoE算法深度解析:从理论架构到行业实践目录一、引言二、MoE算法的基础理论三、MoE算法的核心架构设计(一)专家网络的专业化分工(二)门控网络的动态路由机制
爱听歌的周童鞋6 个月前
llm·router·moe·cs336·deepseek-moe
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 4: Mixtrue of experts学习斯坦福的 CS336 课程,本篇文章记录课程第四讲:混合专家模型,记录下个人学习笔记,仅供自己参考😄