DeepSeek 逼出谷歌新推理模型:40 分优势超 GPT4.5 登顶竞技场,支持原生多模态,但依然败给了 “竹竿问题”

又双叒,抢在 OpenAI 直播之前,谷歌 Gemini 2.5 系列来了。

首个版本 Pro Experimental 一登场就抢下大模型竞技场第一名,并且整整比 GPT-4.5 高出 40 分

Gemini 2.5 同样是推理模型,用 Jeff Dean 的说法是:

这是我们最智能的模型,具有令人印象深刻的高级推理和编码能力。

Be like,给出一段提示词:

帮我制作一款吸引人的无尽跑酷游戏。屏幕上要有关键操作说明。使用 p5js,不要用 HTML。我喜欢像素风格的恐龙和有趣的背景。

1 分钟左右,就能得到:


谷歌 "最先进复杂任务模型"

谷歌介绍,相较于 Gemini 2.0 Flash Thinking 这个谷歌首个推理模型,Gemini 2.5 在基础模型和后训练技术上都有改进。

不仅是在大模型竞技场上一举拿下高分,在各种推理、数学、科学、编程基准上,Gemini 2.5 Pro 都表现出色,属于是编程能跟 Claude 3.7 Sonnet 掰手腕,数学能跟 Grok 3 相媲美。

更详细测试结果看这里:

Gemini 2.5 Pro 的上下文窗口是 1M tokens,并且支持原生多模态:可以理解庞大数据集并处理来自不同信息源的复杂问题,包括文本、音频、图像、视频,甚至是整个代码库。

在推理能力之外,谷歌官方还强调了一把 Gemini 2.5 Pro 的编程性能:

2.5 pro 擅长创造视觉上引人注目的 Web 应用程序和智能体代码。

谷歌 DeepMind 研究员们也释出了更多案例,比如把 "六边形内旋转小球" 这事整得更加酷炫:

视频详情

p.s. 距离谷歌上新 Gemini 2.0 家族,也不过一个多月时间,怕不是让 DeepSeek 给逼急了(doge)。

目前,Gemini 2.5 Pro 已经面向 Gemini Advanced 付费用户开放,开放人员也可以在 Google AI Studio 中试用。谷歌表示,未来几周内还将在 Vertex AI 上推出该模型。

不过,当我们拿最新大模型难题 "竹竿问题" 测试 Gemini 2.5 Pro 时,它并没能顺利通关。

试玩地址:
aistudio.google.com/app/prompts...

参考链接:
blog.google/technology/...

欢迎在评论区留下你的想法!

--- ---

相关推荐
天涯海风2 小时前
检索增强生成(RAG) 缓存增强生成(CAG) 生成中检索(RICHES) 知识库增强语言模型(KBLAM)
人工智能·缓存·语言模型
lxmyzzs3 小时前
基于深度学习CenterPoint的3D目标检测部署实战
人工智能·深度学习·目标检测·自动驾驶·ros·激光雷达·3d目标检测
跟着珅聪学java4 小时前
Apache OpenNLP简介
人工智能·知识图谱
AwhiteV4 小时前
利用图数据库高效解决 Text2sql 任务中表结构复杂时占用过多大模型上下文的问题
数据库·人工智能·自然语言处理·oracle·大模型·text2sql
Black_Rock_br5 小时前
AI on Mac, Your Way!全本地化智能代理,隐私与性能兼得
人工智能·macos
☺����5 小时前
实现自己的AI视频监控系统-第一章-视频拉流与解码2
开发语言·人工智能·python·音视频
fsnine5 小时前
机器学习——数据清洗
人工智能·机器学习
小猿姐6 小时前
KubeBlocks AI:AI时代的云原生数据库运维探索
数据库·人工智能·云原生·kubeblocks
算法_小学生6 小时前
循环神经网络(RNN, Recurrent Neural Network)
人工智能·rnn·深度学习
吱吱企业安全通讯软件7 小时前
吱吱企业通讯软件保证内部通讯安全,搭建数字安全体系
大数据·网络·人工智能·安全·信息与通信·吱吱办公通讯