moe

Robot_Nav5 天前
moe·cts·本体感知·四足机器人高鲁棒控制
仅依赖本体感知的高鲁棒性运动控制——go2_rl_gym项目分析项目地址:https://github.com/Robot-Nav/vbot_rl_gym 论文参考:https://arxiv.org/html/2602.00678v4;https://arxiv.org/html/2405.10830v2
是Yu欸13 天前
大模型·llm·prompt·webui·moe·sensenova u1·商汤科技
从 Prompt 到 WebUI:基于 SenseNova U1 封装一个图文技术博客生成工具版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。这次实践的核心产品对象是商汤日日新 SenseNova U1。我的工作不是训练模型,也不是开发 SenseNova U1 本身,而是基于它的图文生成能力,封装一个面向技术博客创作场景的本地 WebUI/API 工具。这个工具的目标很明确:用户输入文章主题、技术材料和信息图风格后,系统自动生成博客大纲、信息图 Prompt 和 Markdown 技术博客,并可选择继续调用图像生成接口。
计算机魔术师18 天前
人工智能·后端·面试·架构·moe·vol.3.3·vol.3.4
【AI面试八股文 Vol.3.4:训练微调部署选型】从预训练到量化部署:LLM 工程落地如何做模型选择摘要:用一条工程主线讲清 LLM 从预训练、SFT、RLHF/DPO/KTO 对齐,到 LoRA/Adapter/P-tuning/IA3 微调、INT8/INT4/GPTQ/AWQ 量化部署和 Llama/Qwen/DeepSeek 等模型选型的取舍逻辑,重点回答面试里最容易被追问的成本、显存、效果和项目落点。
这是谁的博客?19 天前
ai·架构·大模型·moe·开源模型·deepseek·国产ai
[模型解析] DeepSeek: 技术创新与架构解析DeepSeek 作为国产大模型的代表,在开源领域取得了显著突破。本文将深入分析 DeepSeek 的技术创新与架构设计。
Luca_kill1 个月前
大模型·moe·deepseek·ai架构·v4·混合注意力·流形约束
深度拆解 DeepSeek V4:混合注意力 + 流形约束超连接如何重塑万亿 MoE 架构2026 年 4 月 24 日,DeepSeek V4 预览版正式发布,同步开源了 V4-Pro(总参数 1.6 万亿,激活 490 亿)和 V4-Flash(总参数 2840 亿,激活 130 亿)两个版本。这组数据本身已经足够震撼,但更让技术圈沸腾的是它交出的成绩单:
薛定谔的猫3691 个月前
深度学习·ai·llm·machine learning·moe·deepseek
DeepSeek-V3 模型架构与训练技术深度解析随着大规模语言模型(LLM)技术的飞速发展,DeepSeek-V3 作为国产大模型领域的领军者,凭借其卓越的性能和极高的训练效率引起了广泛关注。本文旨在深入剖析 DeepSeek-V3 的底层架构设计,重点解析其如何通过优化混合专家模型(MoE)和创新性的训练策略,实现性能与成本的平衡。
litble2 个月前
人工智能·大模型·llm·moe·kv-cache·pre-ln
如何速成LLM以伪装成一个AI研究者(2)——Pre-LN,KV-Cache优化,MoE如何速成LLM以伪装成一个AI研究者(1)——循环,卷积,编解码器,注意力,Transformer免责声明:作者也是伪装的,有错漏属于正常现象,欢迎评论指正。
阿杰学AI2 个月前
人工智能·ai·语言模型·智能路由器·aigc·moe·混合专家架构
AI核心知识125—大语言模型之 混合专家架构(简洁且通俗易懂版)MoE (Mixture of Experts, 混合专家架构) 是大模型突破“物理极限”、实现千亿甚至万亿参数的终极扩容魔法。
Flying pigs~~2 个月前
gpt·chatgpt·llm·llama·moe·deepseek·混合专家模式
主流大模型介绍(GPT、Llama、ChatGLM、Qwen、deepseek)发布者:OpenAI(2022年11月30日)类型:聊天机器人模型,基于自然语言处理技术核心能力:理解语言、生成对话、撰写邮件/文案/代码、翻译等
三点水-here4 个月前
分布式·rdma·nccl·moe·流水线并行·张量并行·专家并行
04 - 分布式大模型推理实战:TP/PP/EP并行策略深度解析本文是《大模型推理框架深度解析》系列的第四篇,详解张量并行、流水线并行与专家并行的原理与配置。当你的模型从7B扩展到70B、405B,单卡显存已经无法满足需求时,分布式推理成为必然选择。但面对TP、PP、EP等各种并行策略,很多开发者感到困惑:
AI资源库4 个月前
langchain·cot·ai agent·moe·lmdeploy·intern-s1-pro·open source llm
Intern-S1-Pro模型深入解析我们将文件分为三大类,并解释它们如何像齿轮一样咬合。为了让你更直观地理解,我们将 Intern-S1-Pro 比作一个拥有超级大脑的科研团队。
马武寨山的猴子4 个月前
架构·transformer·moe·ktransformers·sglang
【KTransformers+SGLang】:异构推理架构融合与性能实测全解析期望使用KTransformers的将部分模型加载到内存和cpu上,达到在GPU资源比较匮乏的情况下运行一些超过显存的模型,并且达到一定的token数,可以多人同时使用
其美杰布-富贵-李4 个月前
笔记·学习·moe·门控神经网络
门控模型与Mixture of Experts (MOE) 学习笔记门控机制基础MOE核心原理经典MOE架构PyTorch实现您的场景:ODE+MLP门控融合工程实践扩展阅读
DO_Community5 个月前
人工智能·算法·llm·aigc·moe·aiter
技术解码:Character.ai 如何实现大模型实时推理性能 2 倍提升Character.ai 是一家领先的 AI 娱乐平台,全球用户约 2000 万。Character.ai 团队希望提升 GPU 性能,并降低推理成本。其应用需要在大规模场景下保持极低延迟。为实现这一目标,Character.ai 找到了 DigitalOcean 和 AMD。三方紧密合作,对 AMD Instinct™ MI300X 和 MI325X GPU 平台进行了深度优化,使生产环境的推理吞吐量提升了 2 倍。
一个处女座的程序猿5 个月前
llm·moe·thinking
LLMs之MoE之Thinking:LongCat-Flash-Thinking-2601的简介、安装和使用方法、案例应用之详细攻略LLMs之MoE之Thinking:LongCat-Flash-Thinking-2601的简介、安装和使用方法、案例应用之详细攻略
M宝可梦5 个月前
transformer·memory·hash·moe·记忆·deepseek·engram
Engram: DeepSeek最新工作解读1.从MLA,到NSA,DSA(lightning Indexer),DeepSeek做了很多稀疏化的工作,从计算层面更加高效,节省,试图压榨尽所有的硬件资源; 2.从transformer到MoE------谁来算 但是对于一些简单问题,稠密模型可能存在资源浪费的情况,因为需要不加区分的过一遍所有参数,这对于小模型或许可以接受,但是对于超大量参数的模型难以忍受,因此转为只对部分参数激活; 3.从MoE到Engram------一定程度解耦计算和记忆 过去的transformer只有显示的链接,计算,没有
山顶夕景5 个月前
llm·moe·知识检索·engram
【LLM】deepseek之Engram模型(增加条件记忆模块)【Deepseek进展】给大语言模型加了个“快速查知识的小模块”。也就是条件记忆模块,实现上,融合静态N-gram嵌入与动态隐藏状态,通过确定性寻址实现O(1)查找,以可扩展查找,作为混合专家(MoE)之外的新稀疏性维度。如此一来,原来的模型(比如MoE架构)靠“实时计算”处理信息,这个模块补了个“静态记忆库”,存着常用的短语、知识片段,后续一键调取,不用重复计算。
minhuan5 个月前
moe·混合专家模型·大模型应用
大模型应用:混合专家模型(MoE):大模型性能提升的关键技术拆解.37最近我们强化学习了很多大模型相关知识,应该也注意到了“MoE”这个词,比如什么模型用了MoE架构,MoE让大模型性能得到大幅提升等等,我们初看一扫而过,再看一脸懵逼,那MoE到底是什么?为什么它这么重要?今天就用简单的视角,基础原理和代码演示,一起探究MoE的核心知识!
喜欢吃豆6 个月前
人工智能·语言模型·架构·moe
大语言模型混合专家(MoE)架构深度技术综述—— 理论前沿、系统工程与应用实践在人工智能的发展历程中,模型规模的扩张(Scaling)已被证实是提升模型性能、解锁涌现能力(Emergent Capabilities)的最有效途径之一。然而,随着模型规模突破千亿(100B+)大关,传统的稠密(Dense)Transformer 架构面临着边际效应递减的挑战。在此背景下,混合专家(Mixture-of-Experts, MoE) 架构作为一种“条件计算”范式,凭借其在扩大模型容量的同时保持计算成本可控的特性,成为了大模型领域的绝对核心技术。
阿杰学AI6 个月前
人工智能·ai·语言模型·aigc·ai-native·moe·混合专家模型
AI核心知识57——大语言模型之MoE(简洁且通俗易懂版)MoE 是 Mixture of Experts(混合专家模型)的缩写。它是目前解决大模型 “既要变得超级聪明(参数量大),又要跑得快(推理成本低)” 这个矛盾的核心架构技术。