马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

今天凌晨,马斯克旗下的大型模型公司 xAI 宣布正式开源了一款名为「Grok-1」的混合专家(MoE)模型,该模型包含着 3140 亿个参数,成为当前参数量最大的开源大语言模型之一。

封面图是使用 Midjourney 生成的神经网络的 3D 插图,展示了透明节点和发光连接,以及不同粗细和颜色的连接线展示了不同的权重。

在这一时刻,马斯克当然不会错过嘲讽 OpenAI 的机会,他表示「我们对了解更多关于 OpenAI 的开放部分感兴趣」。

关于模型本身,Grok-1 是从头开始训练的,没有针对特定应用(如对话)进行微调。与此相反,在 X 平台上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。

Grok-1 的模型细节包括:

  • 基础模型基于大量文本数据进行训练,没有针对任何具体任务进行微调。 3140 亿参数的 MoE 模型,激活权重为 25%。
  • xAI 使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。
  • xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。

项目发布截止目前为止已经获得了 8.5 k 星标,并且热度还在持续增加中。

该存储库包含了用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。用户需要先下载 checkpoint,并将 ckpt-0 目录放置在 checkpoint 中,然后运行示例代码进行测试:

python 复制代码
pip install -r requirements.txt
python run.py

项目说明中明确强调,由于 Grok-1 是一个参数规模庞大的模型(314B 参数),因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。此外,该存储库中 MoE 层的实现效率并不高,选择这种实现方式是为了避免需要自定义内核来验证模型的正确性。

用户可以使用 Torrent 客户端和提供的磁力链接来下载权重文件。

txt 复制代码
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

一些技术人员对 314B 参数的 Grok-1 需要的配置表示好奇,根据他们的估算,可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。这意味着8块 H100(每块 80GB)的 GPU 就足够了。

在技术社区中,Grok-1 的开源引发了不少讨论。开源社区指出,该模型在前馈层中使用了 GeGLU,并采用了有趣的 sandwich norm 技术进行归一化。甚至连 OpenAI 的员工也表达了对该模型的兴趣。

总的来说,Grok-1 的开源程度超过了一些具有使用限制的开放权重模型,但相比于 Pythia、Bloom 和 OLMo 等模型,其开源程度仍有所不足。这些模型附带了训练代码和可复现的数据集。

DeepMind 的研究工程师 Aleksa Gordié 预测,Grok-1 的能力应该比 LLaMA-2 要强,但目前尚不清楚有多少数据受到了污染。同时,Grok-1 和 LLaMA-2 的参数量也不是一个量级。

一位推特用户 @itsandrewgao 对 Grok-1 的架构细节进行了详细分析,并做出了一系列总结。

至于 Grok-1 的具体能力以及它是如何运作的,目前还有待进一步。

个人简介

👋 你好,我是 Lorin 洛林,一位 Java 后端技术开发者!座右铭:Technology has the power to make the world a better place.

🚀 我对技术的热情是我不断学习和分享的动力。我的博客是一个关于Java生态系统、后端开发和最新技术趋势的地方。

🧠 作为一个 Java 后端技术爱好者,我不仅热衷于探索语言的新特性和技术的深度,还热衷于分享我的见解和最佳实践。我相信知识的分享和社区合作可以帮助我们共同成长。

💡 在我的博客上,你将找到关于Java核心概念、JVM 底层技术、常用框架如Spring和Mybatis 、MySQL等数据库管理、RabbitMQ、Rocketmq等消息中间件、性能优化等内容的深入文章。我也将分享一些编程技巧和解决问题的方法,以帮助你更好地掌握Java编程。

🌐 我鼓励互动和建立社区,因此请留下你的问题、建议或主题请求,让我知道你感兴趣的内容。此外,我将分享最新的互联网和技术资讯,以确保你与技术世界的最新发展保持联系。我期待与你一起在技术之路上前进,一起探讨技术世界的无限可能性。

📖 保持关注我的博客,让我们共同追求技术卓越。

相关推荐
麻雀无能为力1 小时前
CAU数据挖掘实验 表分析数据插件
人工智能·数据挖掘·中国农业大学
时序之心1 小时前
时空数据挖掘五大革新方向详解篇!
人工智能·数据挖掘·论文·时间序列
.30-06Springfield2 小时前
人工智能概念之七:集成学习思想(Bagging、Boosting、Stacking)
人工智能·算法·机器学习·集成学习
说私域3 小时前
基于开源AI智能名片链动2+1模式S2B2C商城小程序的超级文化符号构建路径研究
人工智能·小程序·开源
永洪科技3 小时前
永洪科技荣获商业智能品牌影响力奖,全力打造”AI+决策”引擎
大数据·人工智能·科技·数据分析·数据可视化·bi
shangyingying_13 小时前
关于小波降噪、小波增强、小波去雾的原理区分
人工智能·深度学习·计算机视觉
书玮嘎4 小时前
【WIP】【VLA&VLM——InternVL系列】
人工智能·深度学习
猫头虎4 小时前
猫头虎 AI工具分享:一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP
运维·人工智能·gpt·开源·自动化·文心一言·ai编程
盖世英雄酱581364 小时前
容易被程序员忽略的硬件设备
程序员
要努力啊啊啊4 小时前
YOLOv2 正负样本分配机制详解
人工智能·深度学习·yolo·计算机视觉·目标跟踪