马斯克旗下xAI发布Grok-1.5,相比较开源的Grok-1,各项性能大幅提升,接近GPT-4!

本文原文来自DataLearnerAI官方网站:马斯克旗下xAI发布Grok-1.5,相比较开源的Grok-1,各项性能大幅提升,接近GPT-4! | 数据学习者官方网站(Datalearner)

继Grok-1开源之后,xAI宣布了Grok-1.5的内测消息,并预告即将全面商用,这一消息无疑为AI技术爱好者和开发者社区带来了新的兴奋点。

Grok-1.5的技术突破

Grok-1.5在性能上的提升是显著的。根据官方发布的数据,Grok-1.5在综合理解能力MMLU评测上达到了81.3分,超越了MistralAI的Mixtral Large模型。在数学推理能力GSM8K的评测中,Grok-1.5更是取得了90分的高分,与业界领先的GPT-4和Claude-3 Sonnet相差无几。

Grok-1.5在DataLearnerAI综合评测排行

在DataLearnerAI收集的全球大模型综合评测数据上,Grok-1.5表现也非常好。按照GSM8K排序,结果如下:

数据来源:大模型综合评测对比 | 当前主流大模型在各评测数据集上的表现总榜单 | 数据学习 (DataLearner)

可以看到,GSM8K在目前的评测上,Grok-1.5已经是全球第四,最好的模型之一了。其它评测结果也是类似,说明Grok-1.5已经达到了第一梯队。而按照编程能力评测的结果,以Human Eval排序为例,结果如下:

数据来源:大模型代码能力评测对比 | 当前主流大模型在代码能力上的表现总榜单 | 数据学习 (DataLearner)

可以看到,Grok-1.5依然排名很高,作为一个综合基础大模型,这样的成绩非常好。略超Claude3-Sonnet!

支持128K上下文长度

Grok-1.5的另一个亮点是支持最高128K的上下文长度,这是第一代Grok-1的8K上下文长度的显著提升。在大海捞针测试中,Grok-1.5表现出色,这一特性对于处理长文本和复杂对话场景具有重要意义。

关于Grok-1.5的详情参考DataLearnerAI原文:马斯克旗下xAI发布Grok-1.5,相比较开源的Grok-1,各项性能大幅提升,接近GPT-4! | 数据学习者官方网站(Datalearner)

相关推荐
梵得儿SHI6 分钟前
Prompt Engineering 核心知识:从基础模式到思维链,掌握大模型高效交互秘籍
大模型·prompt·交互·提示词·对话·大模型提问艺术·极简指令
hzp6664 小时前
Magnus:面向大规模机器学习工作负载的综合数据管理方法
人工智能·深度学习·机器学习·大模型·llm·数据湖·大数据存储
尽兴-18 小时前
【10 分钟!M4 Mac mini 离线部署「私有 ChatGPT」完整实录】
macos·ai·chatgpt·大模型·ollama·私有化
桃子叔叔20 小时前
从0到1讲解大模型中的关键步骤(一)分词、词性标注、命名实体识别
人工智能·大模型·多模态
搞科研的小刘选手1 天前
【大会邀请】2025年AI驱动下:业务转型和数据科学创新国际学术会议(ICBTDS 2025)
人工智能·物联网·大模型·智慧城市·数据科学·ai驱动·计算科学
sight-ai2 天前
超越基础:SightAI 智能路由与多模型选择实战
人工智能·开源·大模型·api
喜欢吃豆2 天前
一份关于语言模型对齐的技术论述:从基于PPO的RLHF到直接偏好优化
人工智能·语言模型·自然语言处理·大模型·强化学习
CoderJia程序员甲2 天前
GitHub 热榜项目 - 日榜(2025-10-15)
ai·开源·大模型·github·ai教程
nueroamazing3 天前
PPT-EA:PPT自动生成器
vue.js·python·语言模型·flask·大模型·项目·ppt
CoderJia程序员甲3 天前
GitHub 热榜项目 - 日榜(2025-10-14)
ai·开源·大模型·github·ai教程