取代程序员的能力更加出色了，Google 发布“最强”AI模型Gemini

文章首发自公众号：程序员Sunday

Hello，大家好，我是 Sunday。

自从 23年3月14日 OpenAI 发布了 GPT-4 之后，各个大厂的大模型工具也不甘示弱开始纷纷发布。

前有微软的 copilot 号称 "吊打 GPT4"。现有 Google 的 Gemini 号称 "遥遥领先"

那么咱们今天这篇文章，就来看看于 12月6日 Google 发布的 Gemini。

Gemini 的由来（译文）

作者：Demis Hassabis，Google DeepMind 首席执行官兼联合创始人，代表 Gemini 团队的自述

当涉及到我的职业生涯以及对人工智能的长期研究时，我一直专注于这个领域。从十几岁开始编写电脑游戏的人工智能，到作为神经科学研究员努力理解大脑运作方式，我一直坚信，如果我们能够构建更智能的机器，我们就能以惊人的方式造福人类。

这种以人工智能为核心的世界，使我们承担着责任，不断推动着我们在Google DeepMind的工作。我们长期以来一直梦想着构建新一代人工智能模型，这些模型受人类对世界的理解和交互方式的启发。人工智能并不仅仅是一个智能软件，它更像是一个实用且直观的工具------一个专业的协助者或者助手。

今天，随着Gemini的推出，我们距离这一愿景又近了一步。Gemini是我们迄今为止构建的最强大、最通用的模型。

Gemini是整个Google团队（包括Google Research的同事）大规模协作的成果。它是从零开始构建的多模态模型，这意味着它能够全面理解、处理和整合不同类型的信息，包括文本、代码、音频、图像和视频。

Gemini 也是我们至今最具灵活性的模型，能够高效运行于从数据中心到移动设备的各种平台。其先进功能将极大增强开发人员和企业客户利用人工智能进行构建和扩展的能力。

我们为 Gemini 1.0（我们的首个版本）优化了三种不同规模：

Gemini 在 32 个测试中有 30 个超过了 GPT-4，并且在 MMLU（大规模多任务语言理解）上的评分达到了 90.0%

Gemini 1.0 经过训练，可以同时识别和理解文本、图像、音频等，因此它可以更好地理解微妙的信息，并可以回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。

在 Google 发布的视频中可以看到，Gemini 可以对人类的行为进行分析，它可以识别蓝色的鸭子，甚至可以在一个魔术中猜到小球的位置

这是视频的地址：twitter.com/dotey/statu...

我们的第一个版本的 Gemini 可以理解、解释和生成世界上最流行的编程语言（如 Python、Java、C++ 和 Go）的高质量代码。它跨语言工作和推理复杂信息的能力使其成为世界领先的编码基础模型之一。

Gemini Ultra 在多个编码基准测试中表现出色，包括HumanEval（用于评估编码任务性能的重要行业标准）和 Natural2Code（我们内部保留的数据集），该数据集使用作者生成的源而不是基于网络的信息。

Gemini 还可以用作更高级编码系统的引擎。两年前，我们推出了AlphaCode，这是第一个在编程竞赛中达到竞争性能水平的人工智能代码生成系统。

使用 Gemini 的专门版本，我们创建了更先进的代码生成系统AlphaCode 2，它擅长解决超出编码范围、涉及复杂数学和理论计算机科学的竞争性编程问题。

无论是 copilot 也好、Gemini 也好、GPT-4 也好，同样也包含国内的很多 AI 大模型。目前他们都在积极地抢占市场。

目前的这些宣传视频，也有很多"自卖自夸"的成分。至于最终它们的表现会如何，就让我们拭目以待吧。