马斯克旗下xAI发布Grok-1.5,相比较开源的Grok-1,各项性能大幅提升,接近GPT-4!

本文原文来自DataLearnerAI官方网站:马斯克旗下xAI发布Grok-1.5,相比较开源的Grok-1,各项性能大幅提升,接近GPT-4! | 数据学习者官方网站(Datalearner)

继Grok-1开源之后,xAI宣布了Grok-1.5的内测消息,并预告即将全面商用,这一消息无疑为AI技术爱好者和开发者社区带来了新的兴奋点。

Grok-1.5的技术突破

Grok-1.5在性能上的提升是显著的。根据官方发布的数据,Grok-1.5在综合理解能力MMLU评测上达到了81.3分,超越了MistralAI的Mixtral Large模型。在数学推理能力GSM8K的评测中,Grok-1.5更是取得了90分的高分,与业界领先的GPT-4和Claude-3 Sonnet相差无几。

Grok-1.5在DataLearnerAI综合评测排行

在DataLearnerAI收集的全球大模型综合评测数据上,Grok-1.5表现也非常好。按照GSM8K排序,结果如下:

数据来源:大模型综合评测对比 | 当前主流大模型在各评测数据集上的表现总榜单 | 数据学习 (DataLearner)

可以看到,GSM8K在目前的评测上,Grok-1.5已经是全球第四,最好的模型之一了。其它评测结果也是类似,说明Grok-1.5已经达到了第一梯队。而按照编程能力评测的结果,以Human Eval排序为例,结果如下:

数据来源:大模型代码能力评测对比 | 当前主流大模型在代码能力上的表现总榜单 | 数据学习 (DataLearner)

可以看到,Grok-1.5依然排名很高,作为一个综合基础大模型,这样的成绩非常好。略超Claude3-Sonnet!

支持128K上下文长度

Grok-1.5的另一个亮点是支持最高128K的上下文长度,这是第一代Grok-1的8K上下文长度的显著提升。在大海捞针测试中,Grok-1.5表现出色,这一特性对于处理长文本和复杂对话场景具有重要意义。

关于Grok-1.5的详情参考DataLearnerAI原文:马斯克旗下xAI发布Grok-1.5,相比较开源的Grok-1,各项性能大幅提升,接近GPT-4! | 数据学习者官方网站(Datalearner)

相关推荐
runner365.git6 小时前
做一个基于ffmpeg的AI Agent智能体
人工智能·ffmpeg·大模型
重生之我要成为代码大佬9 小时前
LangChain-多任务应用开发
langchain·大模型·agent
audyxiao0019 小时前
AI一周重要会议和活动概览(2.2-2.8)
人工智能·大模型·iclr·ccf·一周会议与活动
ATM0069 小时前
专其利AI | 专利撰写的救赎:AI工具为何成为知识产权保护的神兵利器
人工智能·大模型·专利撰写
Elwin Wong11 小时前
浅析DeepSeek-OCR v1&v2
人工智能·大模型·llm·ocr·deepseek
love530love11 小时前
Windows 11 配置 CUDA 版 llama.cpp 并实现系统全局调用(GGUF 模型本地快速聊天)
人工智能·windows·大模型·llama·llama.cpp·gguf·cuda 加速
ATM00613 小时前
专其利AI | 开物之芯团队重磅发布「专其利 AI 专利辅助撰写平台」,30 秒定名、10 分钟出五书!
人工智能·大模型·专利撰写·专其利ai
喜欢吃豆13 小时前
Ralph 架构深度解析报告:自主代理循环与软件工程的确定性重构
人工智能·重构·架构·大模型·软件工程
中杯可乐多加冰1 天前
RAG 深度实践系列(七):从“能用”到“好用”——RAG 系统优化与效果评估
人工智能·大模型·llm·大语言模型·rag·检索增强生成
一个无名的炼丹师1 天前
多模态RAG系统进阶:从零掌握olmOCR与MinerU的部署与应用
python·大模型·ocr·多模态·rag