今天凌晨,马斯克旗下的大型模型公司 xAI 宣布正式开源了一款名为「Grok-1」的混合专家(MoE)模型,该模型包含着 3140 亿个参数,成为当前参数量最大的开源大语言模型之一。
封面图是使用 Midjourney 生成的神经网络的 3D 插图,展示了透明节点和发光连接,以及不同粗细和颜色的连接线展示了不同的权重。
在这一时刻,马斯克当然不会错过嘲讽 OpenAI 的机会,他表示「我们对了解更多关于 OpenAI 的开放部分感兴趣」。
关于模型本身,Grok-1 是从头开始训练的,没有针对特定应用(如对话)进行微调。与此相反,在 X 平台上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。
Grok-1 的模型细节包括:
- 基础模型基于大量文本数据进行训练,没有针对任何具体任务进行微调。 3140 亿参数的 MoE 模型,激活权重为 25%。
- xAI 使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。
- xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。
项目发布截止目前为止已经获得了 8.5 k 星标,并且热度还在持续增加中。
该存储库包含了用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。用户需要先下载 checkpoint,并将 ckpt-0 目录放置在 checkpoint 中,然后运行示例代码进行测试:
python
pip install -r requirements.txt
python run.py
项目说明中明确强调,由于 Grok-1 是一个参数规模庞大的模型(314B 参数),因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。此外,该存储库中 MoE 层的实现效率并不高,选择这种实现方式是为了避免需要自定义内核来验证模型的正确性。
用户可以使用 Torrent 客户端和提供的磁力链接来下载权重文件。
txt
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
一些技术人员对 314B 参数的 Grok-1 需要的配置表示好奇,根据他们的估算,可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。这意味着8块 H100(每块 80GB)的 GPU 就足够了。
在技术社区中,Grok-1 的开源引发了不少讨论。开源社区指出,该模型在前馈层中使用了 GeGLU,并采用了有趣的 sandwich norm 技术进行归一化。甚至连 OpenAI 的员工也表达了对该模型的兴趣。
总的来说,Grok-1 的开源程度超过了一些具有使用限制的开放权重模型,但相比于 Pythia、Bloom 和 OLMo 等模型,其开源程度仍有所不足。这些模型附带了训练代码和可复现的数据集。
DeepMind 的研究工程师 Aleksa Gordié 预测,Grok-1 的能力应该比 LLaMA-2 要强,但目前尚不清楚有多少数据受到了污染。同时,Grok-1 和 LLaMA-2 的参数量也不是一个量级。
一位推特用户 @itsandrewgao 对 Grok-1 的架构细节进行了详细分析,并做出了一系列总结。
至于 Grok-1 的具体能力以及它是如何运作的,目前还有待进一步。
个人简介
👋 你好,我是 Lorin 洛林,一位 Java 后端技术开发者!座右铭:Technology has the power to make the world a better place.
🚀 我对技术的热情是我不断学习和分享的动力。我的博客是一个关于Java生态系统、后端开发和最新技术趋势的地方。
🧠 作为一个 Java 后端技术爱好者,我不仅热衷于探索语言的新特性和技术的深度,还热衷于分享我的见解和最佳实践。我相信知识的分享和社区合作可以帮助我们共同成长。
💡 在我的博客上,你将找到关于Java核心概念、JVM 底层技术、常用框架如Spring和Mybatis 、MySQL等数据库管理、RabbitMQ、Rocketmq等消息中间件、性能优化等内容的深入文章。我也将分享一些编程技巧和解决问题的方法,以帮助你更好地掌握Java编程。
🌐 我鼓励互动和建立社区,因此请留下你的问题、建议或主题请求,让我知道你感兴趣的内容。此外,我将分享最新的互联网和技术资讯,以确保你与技术世界的最新发展保持联系。我期待与你一起在技术之路上前进,一起探讨技术世界的无限可能性。
📖 保持关注我的博客,让我们共同追求技术卓越。