技术栈
moe
&永恒的星河&
5 小时前
人工智能
·
语言模型
·
自然语言处理
·
chatgpt
·
moe
·
llms
Hunyuan-Large:推动AI技术进步的下一代语言模型
腾讯近期推出了基于Transformer架构的混合专家(MoE)模型——Hunyuan-Large(Hunyuan-MoE-A52B)。该模型目前是业界开源的最大MoE模型之一,拥有3890亿总参数和520亿激活参数,展示了极强的计算能力和资源优化优势。
伊织code
5 个月前
llm
·
nvidia
·
moe
·
多专家
在 LLM 架构中应用多专家模型
本文转载自:在 LLM 架构中应用多专家模型 2024年 3月 14日 By Kyle Kranen and Vinh Nguyen https://developer.nvidia.cn/zh-cn/blog/applying-mixture-of-experts-in-llm-architectures/
mengrennwpu
7 个月前
llm
·
moe
LLM面面观之MoE
根据本qiang~最新的趋势观察,基于MoE架构的开源大模型越来越多,比如马斯克的Grok-1(314B), Qwen1.5-MoE-A2.7B等,因此想探究一下MoE里面的部分细节。
Baihai IDP
10 个月前
人工智能
·
深度学习
·
ai
·
自然语言处理
·
llm
·
白海科技
·
moe
MoE模型性能还能更上一层楼?一次QLoRA微调实践
编者按:最近,混合专家(Mixture of Experts,MoE)这种模型设计策略展现出了卓越的语言理解能力,如何在此基础上进一步提升 MoE 模型的性能成为业界热点。
HuggingFace
10 个月前
moe
·
moe模型
·
mixtral
欢迎 Mixtral - 当前 Hugging Face 上最先进的 MoE 模型
最近,Mistral 发布了一个激动人心的大语言模型: Mixtral 8x7b,该模型把开放模型的性能带到了一个新高度,并在许多基准测试上表现优于 GPT-3.5。我们很高兴能够在 Hugging Face 生态系统中全面集成 Mixtral 以对其提供全方位的支持 🔥!
HuggingFace
10 个月前
moe
混合专家模型 (MoE) 详解
随着 Mixtral 8x7B (announcement, model card) 的推出,一种称为混合专家模型 (Mixed Expert Models,简称 MoEs) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中,我们将深入探讨 MoEs 的核心组件、训练方法,以及在推理过程中需要考量的各种因素。
恭仔さん
1 年前
学习
·
多模态
·
稀疏模型
·
moe
LIMoE:使用MoE学习多个模态
文章链接:Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts