马斯克开源大模型Grok-1,手把手教你如何使用

马斯克一直在指责OpenAI没有开源,终于开源自家的大模型Grok-1,也把压力给到了OpenAI

GitHub链接:github.com/xai-org/gro...

居然短短一天就有29k的star

Grok-1的模型参数:

•Parameters: 314B

•Architecture: Mixture of 8 Experts (MoE)

•Experts Utilization: 2 experts used per token

•Layers: 64

•Attention Heads: 48 for queries, 8 for keys/values

•Embedding Size: 6,144

•Tokenization: SentencePiece tokenizer with 131,072 tokens

•Additional Features: Rotary embeddings (RoPE)

•Supports activation sharding and 8-bit quantization

•Maximum Sequence Length (context): 8,192 tokens

第一步:下载模型权重

用户需要确保先下载 checkpoint,并将 ckpt-0 目录放置在 checkpoint 中。

模型权重约为 296.38 GB,如下图,要注意自己磁盘的容量

有下面两种下载方法

1.可以使用 torrent 客户端和此磁力链接下载权重

perl 复制代码
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
  1. 直接使用HuggingFace

链接 huggingface.co/xai-org/gro...

HuggingFace上面有很多预训练模型(如GPT,BERT),也有很多数据集,十分强大 ,推荐大家使用

执行下面的代码

bash 复制代码
git clone https://github.com/xai-org/grok-1.git && cd grok-1pip install huggingface_hub[hf_transfer]huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False

第二步:运行大模型

安装依赖环境,执行代码

复制代码
pip install -r requirements.txt

requirements.txt的文件内容:

ini 复制代码
dm_haiku==0.0.12
jax[cuda12_pip]==0.4.25 -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
numpy==1.26.4
sentencepiece==0.2.0

然后执行代码

arduino 复制代码
python run.py

注意:硬件要求多大呢?

由于模型规模较大(314B参数),需要有足够GPU、内存的机器才能使用示例代码测试模型。

那具体需要多大呢?

这个也是提的比较多的问题,有人给出了回复,但暂时未确认

由于由于the mesh shape assertion(1, 8),因此需要 8 个 GPU。要以本机大小运行,您可能需要 8x80GB GPU (A100 80GB / H100GB)。

详见issue:github.com/xai-org/gro...

容易出现的问题

大家遇到比较多的是下载问题,比如种子无法下载

还有硬件资源的问题,毕竟需要的gpu和内存太高了,对于个人来说成本太高了,个人没法玩了啊

相关推荐
阿坡RPA1 小时前
手搓MCP客户端&服务端:从零到实战极速了解MCP是什么?
人工智能·aigc
用户27784491049931 小时前
借助DeepSeek智能生成测试用例:从提示词到Excel表格的全流程实践
人工智能·python
机器之心1 小时前
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
人工智能
算AI3 小时前
人工智能+牙科:临床应用中的几个问题
人工智能·算法
凯子坚持 c4 小时前
基于飞桨框架3.0本地DeepSeek-R1蒸馏版部署实战
人工智能·paddlepaddle
你觉得2054 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
8K超高清5 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
hyshhhh5 小时前
【算法岗面试题】深度学习中如何防止过拟合?
网络·人工智能·深度学习·神经网络·算法·计算机视觉
薛定谔的猫-菜鸟程序员5 小时前
零基础玩转深度神经网络大模型:从Hello World到AI炼金术-详解版(含:Conda 全面使用指南)
人工智能·神经网络·dnn
币之互联万物5 小时前
2025 AI智能数字农业研讨会在苏州启幕,科技助农与数据兴业成焦点
人工智能·科技