首个开源MoE大模型发布!GPT-4同款架构,来自欧洲的OpenAI

2023-12-09 13:19:57 来源:量子位

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

"取消今晚所有计划!",许多 AI 开发者决定不睡了。

只因首个开源 MoE 大模型 刚刚由 Mistral AI 发布。

MoE 架构全称专家混合 (Mixture-of-Experts),也就是传闻中 GPT-4 采用的方案,可以说这是开源大模型离 GPT-4 最近的一集了。

没有发布会、没有宣传视频,只靠一个磁力链接,就产生如此轰动效果。

具体参数还得是网速快的人下载完之后,从配置文件里截图发出来的:

7B 参数 x8 个专家,对每个 token 选择前两个最相关的专家来处理。

以至于 OpenAI 创始成员 Karpathy 都吐槽,是不是少了点什么?

怎么缺了一个那种排练很多次的专业范视频,大谈特谈 AI 变革啊。

至于吐槽的是谁,懂得都懂了。

以及他还解释了为什么 AI 社区这几天如此活跃:最大的深度学习会议 NeurIPS 即将在下周开启。

为何这款开源 MoE 模型如此受关注?

因为其前身 Mistral-7B 本来就是开源基础模型里最强的那一档,经常可以越级挑战 13B、34B。

并且 Mistral-7B 以宽松的 Apache-2.0 开源协议发布,可免费商用,这次新模型很可能沿用这个协议。

在多个评测排行榜上,基于 Mistral-7B 微调的 Zephyr-7B-beta 都是前排唯一的 7B 模型,前后都是规模比他大得多的模型。

LLMSYS Chatbot Arena 上,Zephry-7B-beta 目前排第 12

AlpacaEval 上,也排到第 15

目前这个新的 MoE 模型连个正式名字都还没有,社区一般称呼它为 Mistral-7Bx8 MoE

但在大家期待的期待中,新 MoE 模型对比单体 Mistral-7B 的提升幅度,就应该像 GPT-4 对比 GPT-3.5 那样。

但是注意了,有人提醒大家 MoE 对于本地运行来说不是太友好,因为更占内存

但更适合部署在云端,跨设备专家并行,给公司处理并发需求带来成本优势。

行动比较快的公司是前 PyTorch 成员出走创办的 fireworks.ai

第一次尝试、没有任何优化的情况下,需要两张 80GB 内存的卡,优化版本即将推出。

Replicate 上也有了可试玩版本,简单试用发现中文水平也不错。

其实 Mistral AI 也为大家准备了官方配套代码,使用了斯坦福去年发布的轻量级 MoE 库 Megablocks。

Mistral AI 由前 DeepMind、前 Meta 科学家创办。

刚刚完成一轮 4.87 亿美元的新融资,最新估值逼近 20 亿美元,已晋升独角兽。

三位联合创始人中,CEO Arthur Mensch 此前在 DeepMind 巴黎工作。

CTO Timothée Lacroix 和首席科学家 Guillaume Lample 则在 Meta 共同参与过 Llama 系列的研发,Lample 是通讯作者之一。

Arthur Mensch 曾在接受采访时谈到,让模型变小是支持 Agent 发展的路径之一。

如果能把计算成本降低 100 倍,就能构建起更多有意思的应用。

Mistral AI 成立于今年 5 月,种子轮融资 1.13 亿美元。

9 月底,Mistral AI 以磁力链接的形式发布第一个开源模型 Mistral-7B,当时很多开发者试用后都觉得 Llama-2 不香了。

12 月初,Mistral AI 再次甩出开源 MoE 模型磁力链接,再次掀起一波热潮。

这就是公司官号仅有的几次发言。

不少人都拿来和最近谷歌的过度宣传做对比。

最新的梗图:磁力链接就是新的 arXiv。

参考链接:

1\][x.com/MistralAI/s...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FMistralAI%2Fstatus%2F1733150512395038967%3Fs%3D20 "https://x.com/MistralAI/status/1733150512395038967?s=20") \[2\][github.com/mistralai/m...](https://link.juejin.cn?target=https%3A%2F%2Fgithub.com%2Fmistralai%2Fmegablocks-public "https://github.com/mistralai/megablocks-public") \[3\][replicate.com/nateraw/mix...](https://link.juejin.cn?target=https%3A%2F%2Freplicate.com%2Fnateraw%2Fmixtral-8x7b-32kseqlen "https://replicate.com/nateraw/mixtral-8x7b-32kseqlen") *版权所有,未经授权不得以任何形式转载及使用,违者必究。*

相关推荐
云手机掌柜2 分钟前
下一代社媒运营工具:亚矩阵云手机集成AIGC与数字人技术引领内容革命
大数据·线性代数·智能手机·矩阵·aigc
九章云极AladdinEdu1 小时前
临床数据挖掘与分析:利用GPU加速Pandas和Scikit-learn处理大规模数据集
人工智能·pytorch·数据挖掘·pandas·scikit-learn·paddlepaddle·gpu算力
上海锝秉工控1 小时前
超声波风向传感器:以科技之翼,捕捉风的每一次呼吸
大数据·人工智能·科技
说私域1 小时前
基于开源AI智能名片、链动2+1模式与S2B2C商城小程序的流量运营与个人IP构建研究
人工智能·小程序·流量运营
xiaoxiaoxiaolll3 小时前
期刊速递 | 《Light Sci. Appl.》超宽带光热电机理研究,推动碳纳米管传感器在制药质控中的实际应用
人工智能·学习
练习两年半的工程师3 小时前
AWS TechFest 2025: 风险模型的转变、流程设计的转型、生成式 AI 从实验走向实施的三大关键要素、评估生成式 AI 用例的适配度
人工智能·科技·金融·aws
DisonTangor4 小时前
字节开源 OneReward: 通过多任务人类偏好学习实现统一掩模引导的图像生成
学习·ai作画·开源·aigc
Elastic 中国社区官方博客5 小时前
Elasticsearch:智能搜索的 MCP
大数据·人工智能·elasticsearch·搜索引擎·全文检索
stbomei6 小时前
从“能说话”到“会做事”:AI Agent如何重构日常工作流?
人工智能
yzx9910136 小时前
生活在数字世界:一份人人都能看懂的网络安全生存指南
运维·开发语言·网络·人工智能·自动化