xAI 发布 Grok-1:最大的开源LLM

马斯克的人工智能公司 xAI 在 Apache 2.0 许可下发布了其 3140 亿参数混合专家模型 Grok-1 的权重和架构。

此前,马斯克上周一承诺向公众免费提供 Grok。作为一个一直密切关注人工智能领域发展的人,不得不说,这是在开放性和可访问性方面向前迈出的一大步。

什么是Grok?

Grok 是一个庞大的语言模型,拥有 3140 亿 个参数,是目前最大的开源模型。就上下文而言,是 OpenAI 的 GPT-3 大小的两倍多,GPT-3 在 2020 年发布时被认为是一项突破。

从下面的图表中,可以看到与竞争对手相比,Grok 的规模有多大。

Grok 不仅更大,它还利用了专家混合 (MoE) 架构,使得 Grok 能够针对不同任务有策略地激活其参数子集。理论上,与传统的密集模型相比,Grok 更加高效且适应性更强。

以下是 Grok-1 版本的摘要

  • 314B 参数混合专家模型,在给定 Token上有 25% 的活跃权重
  • 基本模型是根据大量文本数据进行训练的,没有针对任何特定任务进行微调。
  • 8 experts (2 active)
  • 860 亿个参数
  • 论文:x.ai/blog/grok-o...
  • 代码:github.com/xai-org/gro...

安装 Grok

有关加载和运行 Grok-1 的说明在 GitHub 存储库 中有相应的说明。

HuggingFaceAcademic Torrents 下载权重并将其放入 checkpoints 目录中。

下面就使用 huggingface-cli 来下载,先安装:

arduino 复制代码
pip install -U "huggingface_hub[cli]"

安装之后,运行以下命令下载 ckpt

css 复制代码
huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt/tensor* --local-dir checkpoints/ckpt-0 --local-dir-use-symlinks False

有些人质疑为什么权重是通过 Bittorrent magnet 链接发布的。由于模型变得越来越大,这可能会成为未来的常态。另外,通过 torrent 分发 300 GB 数据比直接分发更便宜。

打开终端并运行以下命令来测试代码:

首先拉取项目代码:

bash 复制代码
git clone https://github.com/xai-org/grok-1.git

将下载的模型文件复制到相应的目录后,执行下面命令:

bash 复制代码
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt

如果出现以下异常

ERROR: Could not find a version that satisfies the requirement jaxlib==0.4.25+cuda12.cudnn89; extra == "cuda12_pip" (from jax[cuda12-pip]) (from versions: 0.4.3, 0.4.4, 0.4.6, 0.4.7, 0.4.9, 0.4.10, 0.4.11, 0.4.12, 0.4.13, 0.4.14, 0.4.16, 0.4.17, 0.4.18, 0.4.19, 0.4.20, 0.4.21, 0.4.22, 0.4.23, 0.4.24, 0.4.25) ERROR: No matching distribution found for jaxlib==0.4.25+cuda12.cudnn89; extra == "cuda12_pip"

可以通过先执行以下命令,在重新安装:

arduino 复制代码
pip install -U "jax[cuda12_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

安装完成之后,再次运行:

pip install -r requirements.txt

接下来就是激动人心的时刻:

arduino 复制代码
python run.py

运行结果如下:

该脚本在测试输入上加载模型中的 checkpoint 和样本。由于 Grok-1 模型规模庞大,包含 3140 亿 个参数,因此需要具有足够 GPU 内存的机器才能使用提供的示例代码测试模型。

xAI 存储库中专家混合 (MoE)层的当前实现并未针对效率进行优化。故意选择此实现是为了优先考虑模型正确性验证并避免开发自定义内核的需要。

如何尝试 Grok

如果只是对 Grok 的功能感到好奇,它目前在 X 上可用,但只有 Premium+ 用户可以使用,价格为每月 16 美元

总结

xAI 的 Grok-1 体现了技术成熟度、道德考虑和前瞻性创新的融合。它的发布不仅有助于人工智能技术的进步,而且还为人工智能模型的开发和集成到数字交互和信息交换结构中设定了新标准。随着 Grok-1 不断发展和适应,它有望成为追求知识和技术进步的宝贵资产。

相关推荐
魔术师卡颂1 小时前
最近看到太多 cursor 带来的焦虑,有些话想说
前端·aigc·openai
Hoper.J4 小时前
微调 BERT:实现抽取式问答
人工智能·深度学习·自然语言处理·llm·bert
canonical_entropy14 小时前
DeepSeek AI的技术理解力超越普通程序员--以Delta定制概念的理解为例
低代码·aigc·openai
知来者逆18 小时前
Binoculars——分析证实大语言模型生成文本的检测和引用量按学科和国家明确显示了使用偏差的多样性和对内容类型的影响
人工智能·深度学习·语言模型·自然语言处理·llm·大语言模型
几米哥1 天前
如何构建高效的AI代理系统:LLM应用实践与最佳方案的深度解析
llm·aigc
测试者家园1 天前
ChatGPT生成接口文档实践案例(二)
软件测试·chatgpt·llm·测试用例·测试图书·质量效能·用chatgpt做测试
强哥之神2 天前
Nexa AI发布OmniAudio-2.6B:一款快速的音频语言模型,专为边缘部署设计
人工智能·深度学习·机器学习·语言模型·自然语言处理·音视频·openai
fanstuck3 天前
Prompt提示工程上手指南(七)Prompt编写实战-基于智能客服问答系统下的Prompt编写
人工智能·数据挖掘·openai
mortimer3 天前
实现一个用于cosoyVoice2的接口并兼容OpenAI TTS
openai·阿里巴巴
that's boy3 天前
突围边缘:OpenAI开源实时嵌入式API,AI触角延伸至微观世界
人工智能·gpt·chatgpt·开源·openai·midjourney