2024年12月11日,Google 发布了 Gemini 2.0 系列的首个模型------Gemini 2.0 Flash(实验版)。凭借多模态方面的新进展以及原生工具的使用,Gemini 2.0 Flash (实验版) 能够构建新的 AI 智能体,推动了实现通用 AI 助手愿景的进程。
**Gemini 2.0 Flash (**实验版 )
Gemini 2.0 Flash (实验版) 是在 Gemini 1.5 Flash 的基础上进行升级开发的,在同样快速的响应时间下,具有更强的性能。Gemini 2.0 Flash (实验版) 在关键基准测试中比 Gemini 1.5 Pro 更快,速度是Gemini 1.5 Pro 的两倍。Gemini 2.0 Flash (实验版) 除了支持图像、音频和视频等多模式输入外,还支持多模式输出。除此之外,Gemini 2.0 Flash (实验版) 还可以调用 Google 搜索、代码执行以及第三方用户定义函数等工具。
Gemini 2.0 Flash (实验版) 现已通过 Google AI Studio 和 Vertex AI 中的 Gemini API 向开发者提供。所有开发者均可使用多模式输入和文本输出,早期访问合作伙伴还可使用文本转语音和原生图像生成功能。Gemini 2.0 将会在 2025 年 1 月份全面上市,同时也将会推出更多尺寸的模型。
通过****Gemini 2.0 解锁智能体体验
Gemini 2.0 Flash 凭借原生用户界面操作能力,以及其他改进(如多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用、原生工具使用等),实现了一种新型的 AI 智能体体验。
AI 智能体的实际应用是一个充满巨大潜力的研究方向,Google 的研究人员正在通过一系列原型探索这一新领域。这些原型可以帮助人们完成任务并完成工作,其中包括对 Project Astra 的更新,旨在探索通用人工智能助手的未来功能;新的 Project Mariner,旨在从浏览器开始探索人机交互的未来;Jules,一个可以帮助开发人员的人工智能代码智能体。
Project Astra**:在现实世界中使用多模式理解的智能体**
Project Astra 最初在今年 5 月的谷歌 I/O 开发者大会上亮相,展示了响应式人工智能在可穿戴眼镜设备上的应用前景。用户可以通过语音与 Astra 互动,Astra 不仅能回答问题,还能从视觉感知环境中提取信息,并进行上下文理解。Gemini 2.0 版本的 Astra 的改进主要包括以下几点:
- 更好的对话: Project Astra 现在能够使用多种语言和混合语言进行交谈,并且能够更好地理解口音和生僻词。
- **新工具用途:**借助 Gemini 2.0,Project Astra 可以使用 Google 搜索、镜头和地图,使其作为日常生活中的得力助手。
- **更好的记忆:**Project Astra 现在拥有长达 10 分钟的会话记忆,可以记住过去与其进行的更多对话,因此能够为用户提供更好的个性化服务。
- **改善延迟:**借助新的流媒体功能和本机音频理解,智能体能够以与人类对话相同的延迟理解语言。
现在 Google 正努力将这些功能引入自家产品,例如 Gemini 应用、 Google AI 助手、以及智能眼镜等其他设备。
**问题:**Can you tell me something interesting about these lanterns? [In French]
Project Mariner**:完成复杂任务的智能体**
Project Mariner 作为一个使用 Gemini 2.0 构建的早期研究原型,它能够理解和推理浏览器屏幕上的信息,包括像素和文本、代码、图像和表单等网络元素,然后通过实验性的 Chrome 扩展程序使用这些信息来完成各种任务。
为了安全、负责地构建这一系统,Google 正在积极研究新型风险和缓解措施,并确保人类参与其中。例如,Project Mariner 仅能在浏览器活动选项卡中执行键入、滚动或点击,并在用户进行敏感操作(如付费操作)前要求最终确认。
尽管当前 Project Mariner 在执行任务时存在准确性不足和速度较慢的问题,但预计这些情况会随着时间逐渐得到显著改善。
**Jules:**面向开发者的智能体
Jules 是一款实验性的 AI 代码智能体,能够与 GitHub 工作流程无缝集成。Jules不仅可以支持多种编程语言,还能够根据开发者的需求进行实时代码审查和优化。此外,Jules还可以解决问题、制定计划并执行,但这些操作均需要开发者的指导和监督。
游戏和其他领域的智能体
Google DeepMind 长期以来一直使用游戏来帮助 AI 模型更好地遵循规则、规划和逻辑。基于这一传统,Google 使用 Gemini 2.0 构建了一些能够在虚拟游戏世界中导航的智能体。这些智能体不仅可以根据屏幕上的动作推断游戏,还可以在实时对话中提供下一步操作的建议。除了充当虚拟游戏伙伴之外,这些智能体甚至可以利用 Google 搜索为用户提供网络上丰富的游戏知识。
展望
随着计算能力、数据处理能力和算法的不断优化,大语言模型的智能体将变得更加强大和灵活,能够处理更加复杂的任务,提供更加精确的服务。这些智能体不仅能在自然语言处理领域取得突破,还将在医疗、金融、教育、科学研究等多个领域中发挥重要作用。然而,随着这些技术的进步,伦理、隐私和技术挑战也日益严峻。如何避免算法偏见、确保数据安全和隐私保护、以及防止技术被恶意利用,都是亟待解决的问题。因此,如何在推动创新的同时,确保技术应用符合社会责任,将是未来大语言模型发展的核心。平衡技术进步与社会责任,制定合理的伦理规范和法律框架,是确保这些技术为人类带来正面影响的关键。