马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文

马斯克搞大模型,速度也奇快。

Grok 1 开源才刚有 10 天,Grok 1.5 就来了。

本周五早上,马斯克旗下的人工智能公司 xAI 正式推出了 Gork 大模型的最新版本 Grok-1.5。新一代模型实现了长上下文理解和高级推理能力,计划将在未来几天内向早期测试人员和 X 平台(前 Twitter)上的现有 Grok 用户提供。

上周一,马斯克刚刚开源了 3140 亿参数的混合专家(MoE)模型 Grok-1。通过开源 Grok-1 的模型权重和网络架构,Gork 项目已展示了 xAI 截至去年 11 月所取得的进展。在最新模型 Grok-1.5 中,Gork 又有了进一步提高。

能力与推理

Grok-1.5 最明显的改进之一是其在代码和数学相关任务中的性能。在 xAI 的测试中,Grok-1.5 在 MATH 基准上取得了 50.6% 的成绩,在 GSM8K 基准上取得了 90% 的成绩,这两个数学基准涵盖了广泛的小学到高中的竞赛问题。

此外,它在评估代码生成和解决问题能力的 HumanEval 基准测试中得分为 74.1%。

还记得昨天 Databricks 开源的通用大模型 DBRX 吗?当时的对比图表如下所示,看起来新版本 Grok 的提升是显著的。

就是不知这个大幅升级的 1.5 版会在什么时候开源?

长上下文理解

Grok-1.5 中的另一个重要升级是在其上下文窗口内可以处理多达 128K token 的长上下文。这使得 Grok 的容量增加到之前上下文长度的 16 倍,从而能够利用更长文档中的信息。

此外,该模型可以处理更长、更复杂的提示(prompt),同时在上下文窗口扩展时仍然能保持其指令跟踪能力。在大海捞针(NIAH)评估中,Grok-1.5 展示了强大的检索能力,可以在长度高达 128K token 的上下文中嵌入文本,实现完美的检索结果。

训练 Grok-1.5 的基础设施

xAI 进一步介绍了用于训练模型的算力设施。在大规模 GPU 集群上运行的先进大型语言模型(LLM)研究需要强大而灵活的基础设施。Grok-1.5 构建在基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架之上。该训练堆栈允许开发团队能够以最小的精力构建想法原型并大规模训练新架构。

在大型计算集群上训练 LLM 的主要挑战是最大限度提高训练作业的可靠性和正常运行时间。xAI 提出的自定义训练协调器可确保自动检测到有问题的节点,并将其从训练作业中剔除。工程师还优化了检查点、数据加载和训练作业重新启动等问题,以最大限度地减少发生故障时的停机时间。

展望

为了寻求替代微软支持的 OpenAI 和 Google 大模型的解决方案,马斯克去年推推动了 AI 创业公司 xAI,以创建他所说的「最大程度寻求真相的人工智能」 。去年 12 月,这家初创公司为 X 的 Premium+ 订阅者推出了 Grok。

xAI 表示,Grok-1.5 很快就会向早期测试者开放,其团队将继续改进 Grok。随着新版本推向公众,在未来几天 X 上的大模型将陆续推出一些新功能。

参考内容:

x.ai/blog/grok-1...

www.reuters.com/technology/...

相关推荐
redreamSo4 小时前
AI Daily | AI日报:ChatGPT识破10年顽疾,医疗AI震撼登场; 微信支付MCP开放,机遇与风险并存; 蒙娜丽莎图让大模型几乎全军覆没
程序员·aigc·资讯
redreamSo1 天前
AI Daily | AI日报:马斯克Grok 4跑分泄露,有望改写LLM格局; 猫猫话术让大模型数学答错率翻3倍; 安克创新All in AI,代码采纳率破50%
程序员·aigc·资讯
德育处主任1 天前
键盘简史:从打字机到机械轴,怎么还是QWERTY布局啊?
资讯
redreamSo2 天前
AI Daily | AI日报:Nature:超14%生物医学论文或由AI代写; Grok 4测试成绩优异,数据真实性引争议; 李飞飞:攻克空间智能,为AGI补拼图
程序员·aigc·资讯
三花AI3 天前
阿里开源 OmniAvatar:音频驱动数字人模型
开源·资讯
NocoBase3 天前
为什么越来越多 Airtable 用户开始尝试 NocoBase?
低代码·开源·资讯
redreamSo3 天前
AI Daily | AI日报:LinkedIn:90% 应用迁移,弃 Kafka 用 Northguard; 谷歌发布免费AI教育功能,重塑课堂!; 小扎143亿请新贵,Meta员工冰火两重天
程序员·aigc·资讯
不摸鱼3 天前
顶级AI评论员:算力狂飙撞墙后,AI的下一场革命靠什么?| 不摸鱼的独立开发者日报(第43期)
人工智能·开源·资讯
NocoBase13 天前
Airtable 的数据超出上限,3 种常见应对方式
低代码·开源·资讯
redreamSo13 天前
AI Daily | AI日报:Anthropic:主流AI模型或成“内鬼”; 微软发布Mu模型,小参数跑出10倍性能; 斯坦福2025 CS336课程全公开搓大模型
程序员·aigc·资讯