取代程序员的能力更加出色了,Google 发布“最强”AI模型Gemini

文章首发自公众号:程序员Sunday

Hello,大家好,我是 Sunday。

自从 23年3月14日 OpenAI 发布了 GPT-4 之后,各个大厂的大模型工具也不甘示弱开始纷纷发布。

前有微软的 copilot 号称 "吊打 GPT4"。现有 Google 的 Gemini 号称 "遥遥领先"

那么咱们今天这篇文章,就来看看于 12月6日 Google 发布的 Gemini

Gemini 的由来(译文)

作者:Demis Hassabis,Google DeepMind 首席执行官兼联合创始人,代表 Gemini 团队的自述

当涉及到我的职业生涯以及对人工智能的长期研究时,我一直专注于这个领域。从十几岁开始编写电脑游戏的人工智能,到作为神经科学研究员努力理解大脑运作方式,我一直坚信,如果我们能够构建更智能的机器,我们就能以惊人的方式造福人类。

这种以人工智能为核心的世界,使我们承担着责任,不断推动着我们在Google DeepMind的工作。我们长期以来一直梦想着构建新一代人工智能模型,这些模型受人类对世界的理解和交互方式的启发。人工智能并不仅仅是一个智能软件,它更像是一个实用且直观的工具------一个专业的协助者或者助手。

今天,随着Gemini的推出,我们距离这一愿景又近了一步。Gemini是我们迄今为止构建的最强大、最通用的模型。

Gemini是整个Google团队(包括Google Research的同事)大规模协作的成果。它是从零开始构建的多模态模型,这意味着它能够全面理解、处理和整合不同类型的信息,包括文本、代码、音频、图像和视频。

Gemini 也是我们至今最具灵活性的模型,能够高效运行于从数据中心到移动设备的各种平台。其先进功能将极大增强开发人员和企业客户利用人工智能进行构建和扩展的能力。

我们为 Gemini 1.0(我们的首个版本)优化了三种不同规模:

  • Gemini Ultra------我们最大、最强大的模型,适用于高度复杂的任务。
  • Gemini Pro------我们能够扩展各种任务的最佳模型。
  • Gemini Nano------我们最高效的设备端任务模型。

Gemini 的性能(主要是对比 GPT-4)

Gemini 在 32 个测试中有 30 个超过了 GPT-4,并且在 MMLU(大规模多任务语言理解)上的评分达到了 90.0%

理解文本、图像、音频等

Gemini 1.0 经过训练,可以同时识别和理解文本、图像、音频等,因此它可以更好地理解微妙的信息,并可以回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。

在 Google 发布的视频中可以看到,Gemini 可以对人类的行为进行分析,它可以识别蓝色的鸭子,甚至可以在一个魔术中猜到小球的位置

这是视频的地址:twitter.com/dotey/statu...

取代程序员的能力更加出色了

我们的第一个版本的 Gemini 可以理解、解释和生成世界上最流行的编程语言(如 Python、Java、C++ 和 Go)的高质量代码。它跨语言工作和推理复杂信息的能力使其成为世界领先的编码基础模型之一。

Gemini Ultra 在多个编码基准测试中表现出色,包括HumanEval(用于评估编码任务性能的重要行业标准)和 Natural2Code(我们内部保留的数据集),该数据集使用作者生成的源而不是基于网络的信息。

Gemini 还可以用作更高级编码系统的引擎。两年前,我们推出了AlphaCode,这是第一个在编程竞赛中达到竞争性能水平的人工智能代码生成系统。

使用 Gemini 的专门版本,我们创建了更先进的代码生成系统AlphaCode 2,它擅长解决超出编码范围、涉及复杂数学和理论计算机科学的竞争性编程问题。

写在最后

无论是 copilot 也好、Gemini 也好、GPT-4 也好,同样也包含国内的很多 AI 大模型。目前他们都在积极地抢占市场。

目前的这些宣传视频,也有很多"自卖自夸"的成分。至于最终它们的表现会如何,就让我们拭目以待吧。

相关推荐
gogoMark2 小时前
口播视频怎么剪!利用AI提高口播视频剪辑效率并增强”网感”
人工智能·音视频
2201_754918412 小时前
OpenCV 特征检测全面解析与实战应用
人工智能·opencv·计算机视觉
love530love3 小时前
Windows避坑部署CosyVoice多语言大语言模型
人工智能·windows·python·语言模型·自然语言处理·pycharm
985小水博一枚呀4 小时前
【AI大模型学习路线】第二阶段之RAG基础与架构——第七章(【项目实战】基于RAG的PDF文档助手)技术方案与架构设计?
人工智能·学习·语言模型·架构·大模型
香蕉可乐荷包蛋4 小时前
浅入ES5、ES6(ES2015)、ES2023(ES14)版本对比,及使用建议---ES6就够用(个人觉得)
前端·javascript·es6
白熊1884 小时前
【图像生成大模型】Wan2.1:下一代开源大规模视频生成模型
人工智能·计算机视觉·开源·文生图·音视频
weixin_514548894 小时前
一种开源的高斯泼溅实现库——gsplat: An Open-Source Library for Gaussian Splatting
人工智能·计算机视觉·3d
未来之窗软件服务4 小时前
资源管理器必要性———仙盟创梦IDE
前端·javascript·ide·仙盟创梦ide
四口鲸鱼爱吃盐5 小时前
BMVC2023 | 多样化高层特征以提升对抗迁移性
人工智能·深度学习·cnn·vit·对抗攻击·迁移攻击
Echo``5 小时前
3:OpenCV—视频播放
图像处理·人工智能·opencv·算法·机器学习·视觉检测·音视频