刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统

刚刚,Gemini 系列模型迎来了一波更新:

  • Gemini 2.5 Pro 稳定版发布且已全面可用,其与 6 月 5 日的预览版相比无变化。

  • Gemini 2.5 Flash 稳定版发布且已全面可用,其与 5 月 20 日的预览版相比无变化,但价格有更新。

  • 新推出了 Gemini 2.5 Flash-Lite 并已开启预览。

谷歌 CEO Sundar Pichai 发推表示新推出的 Gemini 2.5 Flash-Lite 是目前性价比最高的 2.5 系列模型。

可以看到,谷歌对 2.5 Flash-Lite 的定位是适合用于「量大且注重成本效率的任务」。相较之下,2.5 Pro 适合编程和高复杂度任务,2.5 Flash 则居中,更适合需要较快速度的日常任务。

据官方博客介绍,Gemini 2.5 Flash-Lite 同样是一个推理模型,同样支持多模态输入和 100 万 token 上下文,并支持通过 API 参数动态控制思考预算。由于 Flash-Lite 针对成本和速度进行了优化,因此与谷歌 DeepMind 的其他模型不同,其「思考」功能默认处于关闭状态。除了函数调用之外,2.5 Flash-Lite 还支持已有的所有原生工具,例如基于谷歌搜索查找依据、代码执行和 URL 上下文。

性能上,Gemini 2.5 Flash-Lite 的整体表现自然会比 2.5 Flash 差一些,而开启思考的版本也比没开启的更强。但在少量指标上,2.5 Flash-Lite 却意外地具有少量分数优势,比如 AIME 2025 和 FACTS Grounding。

价格方面,自然也是与性能挂钩的。如上图底部所示,2.5 Flash-Lite 的定价为每百万输入 / 输出 token 0.1/0.4 美元,而如果是音频输入,则为每百万输入 token 0.5 美元。2.5 Flash 的价格为每百万输入 / 输出 token 0.3/2.5 美元,音频输入的则为 1 美元。性能最佳的 2.5 Pro 价格没有变化,还是贵得多:每百万输入 / 输出 token 1.25/10 美元。

Gemini 2.5 Flash-Lite 的预览版现已在 Google AI Studio 和 Vertex AI 上线,与 2.5 Flash 和 Pro 的稳定版本一同提供。用户也可在 Gemini App 中使用 2.5 Flash 和 Pro。此外,谷歌还为 2.5 Flash-Lite 和 2.5 Flash 的定制版本引入了搜索功能。

另外,谷歌也发布了新版本的 Gemini 2.5 技术报告,从中我们可以看到有关 Gemini 2.5 Flash-Lite 的更多信息,比如在性价比方面,Gemini 系列共同组成了当前 LLM 的佩雷托前沿,是性价比最高的系列模型。

另外,该报告中还提到了一种名为「智能体恐慌(agent panic)」的现象,即在游戏过程中,Gemini 2.5 Pro 遇到了多种可能导致模型模拟「恐慌」的情况。

例如,当队伍中的宝可梦生命值或能量值较低时,模型会反复提醒自己需要立即治疗队伍或逃离当前地牢。有趣的是,这种模型性能模式似乎与模型推理能力的定性可观察到的下降相关------例如,在这种情况持续期间,在游戏过程中完全忘记使用探路工具。

报告地址:storage.googleapis.com/deepmind-me...

作为当今 AI 模型的顶流之一,Gemini 更新自然也吸引了万众瞩目,很多用户已经尝试并分享了自己的体验。

Datasette 开发者、著名技术博主 Simon Willison 用一篇博客分享了自己的体验,下图从左到右分别为 2.5 Pro、2.5 Flash 和 2.5 Flash-Lite 生成的鹈鹕骑自行车 SVG。

simonwillison.net/2025/Jun/17...

而输出 token 数分别为 4,226、14,500、2,070,对应成本分别为 4.2274、3.6253、0.0829 美分。

另外,他还尝试了将一个新的 Twitter Space 的录音转录成文本。结果发现,2.5 Pro 的效果最好,总成本为 18.1 美分,时间 147.5 秒;2.5 Flash 也不错,消耗 10 美分和 72.6 秒。但 2.5 Flash-Lite 却遭遇了错误,中途卡住了。

DeepMind 研究 VP 和深度学习负责人 Oriol Vinyals 则通过一个更加亮眼的示例展示了 2.5 Flash-Lite,即所谓的 Neural OS / 神经操作系统。这看起来像是一个操作系统的 UI,但实际上里面的内容是用户在点击图标后由 2.5 Flash-Lite 实时生成的!

视频详情

机器之心也在 Google AI Studio 中简单实验了新推出的 2.5 Flash-Lite。

首先开启 Thinking 模式,使用如下提示词编写一个小游戏:

编写一个贪吃蛇小游戏,除了常规机制外,里面还要有障碍物。使用鲜艳多彩的颜色。

2.5 Flash-Lite 确实很快,仅用 17.1 秒就完成了任务,效果也还不错,就是障碍物过多了。

接下来,关闭 Thinking 模式,丢给它今年上海高考的作文题:

请完成这道作文题:

有学者用 "专""转""传" 概括当下三类文章:"专" 指专业文章;"转" 指被转发的通俗文章;"传" 指获得广泛传播的佳作,甚至是传世文章。他提出,专业文章可以变成被转发的通俗文章,而面对大量 "转" 文,读者又不免期待可传世的文章。

由 "专" 到 "传",必定要经过 "转" 吗?请联系社会生活,写一篇文章,谈谈你的认识与思考。

要求:(1)自拟题目;(2)不少于 800 字。

2.5 Flash-Lite 仅用 5.9 秒就完成了任务,至于结果,就交给你亲自品鉴了:

最后,分享一个 Gemini 2.5 技术报告的贡献者和致谢名单中隐藏的彩蛋:

你看出来了吗?

参考链接

developers.googleblog.com/en/gemini-2...

blog.google/products/ge...

x.com/googleaidev...

相关推荐
G皮T3 小时前
【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析
人工智能·chatgpt·llm·大语言模型·deepseek·deepseek-v3·deepseek-r1
九年义务漏网鲨鱼3 小时前
【大模型学习 | MINIGPT-4原理】
人工智能·深度学习·学习·语言模型·多模态
元宇宙时间4 小时前
Playfun即将开启大型Web3线上活动,打造沉浸式GameFi体验生态
人工智能·去中心化·区块链
开发者工具分享4 小时前
文本音频违规识别工具排行榜(12选)
人工智能·音视频
产品经理独孤虾4 小时前
人工智能大模型如何助力电商产品经理打造高效的商品工业属性画像
人工智能·机器学习·ai·大模型·产品经理·商品画像·商品工业属性
老任与码4 小时前
Spring AI Alibaba(1)——基本使用
java·人工智能·后端·springaialibaba
蹦蹦跳跳真可爱5894 小时前
Python----OpenCV(图像増强——高通滤波(索贝尔算子、沙尔算子、拉普拉斯算子),图像浮雕与特效处理)
人工智能·python·opencv·计算机视觉
雷羿 LexChien4 小时前
从 Prompt 管理到人格稳定:探索 Cursor AI 编辑器如何赋能 Prompt 工程与人格风格设计(上)
人工智能·python·llm·编辑器·prompt
两棵雪松5 小时前
如何通过向量化技术比较两段文本是否相似?
人工智能
heart000_15 小时前
128K 长文本处理实战:腾讯混元 + 云函数 SCF 构建 PDF 摘要生成器
人工智能·自然语言处理·pdf