moe

&永恒的星河&2 个月前
人工智能·语言模型·自然语言处理·chatgpt·moe·llms
Hunyuan-Large:推动AI技术进步的下一代语言模型腾讯近期推出了基于Transformer架构的混合专家(MoE)模型——Hunyuan-Large(Hunyuan-MoE-A52B)。该模型目前是业界开源的最大MoE模型之一,拥有3890亿总参数和520亿激活参数,展示了极强的计算能力和资源优化优势。
伊织code7 个月前
llm·nvidia·moe·多专家
在 LLM 架构中应用多专家模型本文转载自:在 LLM 架构中应用多专家模型 2024年 3月 14日 By Kyle Kranen and Vinh Nguyen https://developer.nvidia.cn/zh-cn/blog/applying-mixture-of-experts-in-llm-architectures/
mengrennwpu9 个月前
llm·moe
LLM面面观之MoE根据本qiang~最新的趋势观察,基于MoE架构的开源大模型越来越多,比如马斯克的Grok-1(314B), Qwen1.5-MoE-A2.7B等,因此想探究一下MoE里面的部分细节。
Baihai IDP1 年前
人工智能·深度学习·ai·自然语言处理·llm·白海科技·moe
MoE模型性能还能更上一层楼?一次QLoRA微调实践编者按:最近,混合专家(Mixture of Experts,MoE)这种模型设计策略展现出了卓越的语言理解能力,如何在此基础上进一步提升 MoE 模型的性能成为业界热点。
HuggingFace1 年前
moe·moe模型·mixtral
欢迎 Mixtral - 当前 Hugging Face 上最先进的 MoE 模型最近,Mistral 发布了一个激动人心的大语言模型: Mixtral 8x7b,该模型把开放模型的性能带到了一个新高度,并在许多基准测试上表现优于 GPT-3.5。我们很高兴能够在 Hugging Face 生态系统中全面集成 Mixtral 以对其提供全方位的支持 🔥!
HuggingFace1 年前
moe
混合专家模型 (MoE) 详解随着 Mixtral 8x7B (announcement, model card) 的推出,一种称为混合专家模型 (Mixed Expert Models,简称 MoEs) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中,我们将深入探讨 MoEs 的核心组件、训练方法,以及在推理过程中需要考量的各种因素。
恭仔さん1 年前
学习·多模态·稀疏模型·moe
LIMoE:使用MoE学习多个模态文章链接:Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts