源神,启动!马斯克开源史上最大模型Grok,参数高达3140亿,可商用!

马斯克真不愧是源神,自开源X的推荐算法以及特斯拉智能驾驶算法后,又说到做到,开源旗下大模型Grok!

代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是一个3140亿参数的混合专家模型,远超OpenAI GPT-3.5的1750亿。,就是说,这是当前开源模型中参数量最大的一个,遵照Apache 2.0协议开放模型权重和架构。

消息一出,Grok-1的GitHub仓库已揽获15K标星,并且还在库库猛涨。

GitHub地址:github.com/xai-org/gro...

目前Grok-1的源权重数据大小大约为300GB。

表情包们,第一时间被吃瓜群众们热传了起来。

而ChatGPT本Chat,也现身Grok评论区,开始了和马斯克新一天的斗嘴......

Grok-1介绍

此次开源,xAI发布了Grok-1的基本模型权重和网络架构。

具体来说是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用(例如对话)进行微调。

Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,这种MOE架构重点在于提高大模型的训练和推理效率,形象地理解,MOE就像把各个领域的"专家"集合到了一起,遇到任务派发给不同领域的专家,最后汇总结论,提升效率。决定每个专家做什么的是被称为"门控网络"的机制。

在GitHub页面上,官方特别强调了Grok模型的巨大规模(总共314B参数),这意味着运行Grok需要强大的GPU和内存支持。

此外,模型的权重文件以磁力链接的形式提供,文件大小接近300GB,这也是一个相当庞大的数字。

除了参数规模之外,Grok在工程架构上也颇具创新精神------它并没有选择常见的Python、PyTorch或Tensorflow,而是采用了Rust编程语言和新兴的深度学习框架JAX。

除了官方通告外,一些专家通过深入分析代码等方式揭示了更多关于Grok的技术细节。例如,斯坦福大学的Andrew Kean Gao就对Grok的技术细节进行了深入解释。

他指出,Grok采用了旋转的embedding方式,而非传统的固定位置embedding,旋转位置的embedding大小为6144,与输入embedding相同这种创新方法为Grok的性能和效率提供了新的可能性.

当然,还有更多的参数信息:

  • Transformer层数为64,每层都有一个解码器层,包含多头注意力块和密集块;

    key value大小为128;多头注意力块中,有48 个头用于查询,8 个用于KV,KV 大小为 128;密集块(密集前馈块)扩展因子为8,隐藏层大小为32768。窗口长度为8192tokens,精度为bf16Tokenizer vocab大小为131072(2^17),与GPT-4接近;embedding大小为6144(48×128);

除了Gao,还有英伟达AI科学家Ethan He(何宜晖)指出,在专家系统的处理方面,Grok也与另一知名开源MoE模型Mixtral不同,Grok对全部的8个专家都应用了softmax函数,然后从中选择top2专家,而Mixtral则是先选定专家再应用softmax函数。

而至于有没有更多细节,可能要看官方会不会发布进一步的消息了,另外,值得一提的是,Grok-1采用的是Apache 2.0 license,也就是说,支持商用

相关推荐
qzhqbb2 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨3 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041083 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌4 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭4 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^4 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
Power20246665 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k5 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫5 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班5 小时前
复现LLM:带你从零认识语言模型
人工智能·语言模型