就在今天凌晨,谷歌突然决定正式发布自己的Gemini2.0。谷歌CEO桑达尔·皮查伊说:"如果说 Gemini 1.0 是关于组织和理解信息的,那么 Gemini 2.0 就是为了让信息更加有用。我迫不及待地想看看下一个时代会带来什么。"
这是谷歌迄今为止最强大的AI大模型,有更强的性能,更多的多模态表现(影像和音频),和更多原生工具应用。
在技术层面,Gemini 2.0采用了最新的机器学习和深度学习算法,提升了神经网络的结构和效率,特别是在自然语言处理(NLP)领域表现出色。
这些技术的创新使得Gemini 2.0能够更好地理解和生成自然语言,增强了人机交互的智能性。
仿佛在说着:欢迎来到智能体的世界
在 Gemini 1.5 Flash 成功的基础上,Flash 2.0 的速度是 1.5 Pro 的两倍,同时实现了更强大的性能,包括新的多模式输出,并附带本机工具使用。谷歌还推出了多模式实时 API,用于构建具有实时音频和视频流的动态应用程序。
Gemini2.0的进步显而易见了。
如图所示, Gemini 2.0 在关键基准测试中相对于 Gemini 1.5 Pro 实现了大幅性能提升而且延迟更低,谷歌官方的表述是"关键基准测试中超越了 1.5 Pro,速度是其两倍"。
据介绍,Gemini 2.0 还带来了多种新功能。除了支持图像、视频和音频等多模态输入外,现在还支持多模态输出,例如与文本混合的原生文生图、可自定义的文本转语音 (TTS) 多语言音频内容。此外,它还支持原生调用工具,如 Google 搜索、代码执行以及第三方用户定义函数等等。
此外谷歌还说:
同样从今天开始,全球 Gemini 用户可以通过在桌面和移动 Web 的模型下拉列表中选择 2.0 Flash 实验版来访问聊天优化版本,并且它很快就会在 Gemini 移动应用程序中提供。有了这个新模型,用户可以体验到更有用的 Gemini 助手。
明年年初,我们会将 Gemini 2.0 扩展到更多 Google 产品。
还谈到了对未来的计划:
接下来,我们将探索 AI 代理如何使用 Jules 为开发人员提供帮助,Jules 是一种直接集成到 GitHub 工作流程中的实验性 AI 驱动的代码代理。它可以解决问题、制定计划并执行它,所有这些都在开发人员的指导和监督下进行。这项工作是我们长期目标的一部分,即构建在所有领域(包括编码)都有帮助的 AI 代理。
有关此正在进行的实验的更多信息,请参阅我们的开发人员博客文章。
即日起,开发人员便可在AI Studio和Vertex AI中对Gemini 2.0 Flash实验版本进行试用,而且该版本也已经在网页版中为Gemini Advanced开放试用,移动版后续也将推出。
为了帮助开发者构建动态和交互式应用程序,谷歌还发布了新的Multimodal Live API,具有实时音频、视频流输入以及使用多个组合工具的能力。
最后,他们还谈到了:
Gemini 2.0 Flash 和我们的研究原型使我们能够在 AI 研究的最前沿测试和迭代新功能,最终使 Google 产品更加实用。
随着我们开发这些新技术,我们认识到它所带来的责任,以及 AI 代理为安全和安保带来的许多问题。这就是为什么我们采取探索性和渐进的开发方法,对多个原型进行研究,迭代实施安全培训,与值得信赖的测试人员和外部专家合作,并进行广泛的风险评估以及安全和保证评估。