高能预警,谷歌神器一句话 P 图全网震动!PS 直接淘汰,模特广告业不存在了?

【新智元导读】谷歌的 Gemini 2.0 Flash 凭一句话 PS 的功能,还在全网不断掀起新的风暴!广告业直接被颠覆,模特从此彻底不存在了。去水印、梗图、交叉图像,已经被网友玩疯。甚至有人预言:谷歌已全面超越 OpenAI,将率先实现 AGI。

最近,谷歌的种种 AI 产品是全方位领先,大有全面超越 OpenAI 的架势。

如今已经有人预测:谷歌 DeepMind 将比 OpenAI 率先实现 AGI!

原因很明显,如今谷歌 DeepMind 在多个领域布局下的产品,已经表现出全面获胜之势,而且,它们并没有炒作。

**最佳通用模型:**Gemini 2.0 Flash

**最佳多模态:**Gemini 2.0 Flash / Gemini 2.0 Pro Experimental

**最佳原生图像生成:**Gemini 2.0 Flash

**最佳文本 / 图像到视频:**Veo-2

**最佳图像生成:**Imagen-3

**最大的上下文窗口:**2M(Gemini 2.0 Pro Experimental)

此外,谷歌的原生音频生成功能也将很快上线。

对比之下,OpenAI 近期最令人印象深刻的行动,大概就是发出 15 页提案,呼吁美国政府全面封禁 DeepSeek、锁死中国 AI 了,这么一对比,简直高下立判。

总之,谷歌 DeepMind 不炒作,不对其他竞品评头论足,只是默默做事,给大众留下了非常清新的印象。

如今,它已经愈发势不可挡,而在机器人开发领域,如果仅是将额外开发的技术推向市场,或许就会引发巨大的冲击波。

学会超强推理的模型,更懂怎么生图了

四天前,谷歌宣布,自己的首个向公众发布的全模态图像生成器上线,Gemini 2.0 Flash 可以进行原生图像生成了。

「一句话就能 PS」的功能,当即震惊了全部网友。

Gemini 生成的开怀大笑的蒙娜丽莎

几天过去了,Gemini 2.0 Flash 引发的余震,还在不断回响。

一句话去水印、交叉图像生成等功能,被网友们玩疯了。大家公认:它已经可以轻松取代 Photoshop。

全模态图像生成器,跟其他 AI 生图模型最大的区别在哪里?

因为它自身具备的超强推理能力,能结合现实世界的知识生成更符合上下文的图像,理解更多细节,更遵循文化背景特征。

其中,全程都是由 Gemini 模型完成,无需调用其他模型,只需通过自然语言提示。

此外,传统的 AI 生图器需要分开处理文本和图片,它则是能同时输出文本和插图,保持惊人的一致性。

**真正的多模态能力:**同时理解文字、图像,以及二者联系

**理解世界知识:**能做智能推理,结合现实世界知识生成准确内容

**自然语言交互:**仅用对话修改图片,真正实现一句话 PS

如此强大、令人震撼的修图功能,不禁让网友 Oleks 推测:以买图为主业的公司,股价将暴跌、一泻千里!

一句话 PS,收费 PhotoShop 被创飞

如今看来,PS 是已经被彻底颠覆了。

从 11 岁起从事视觉特效的 Bilawal Sidhu 表示,谷歌的 Gemini 新功能「一句话 PS」将消除 PS 高手和小白之间的技术壁垒。

他展示了 5 个例子,用 Gemini 搞特效就是这么简单。

1. 将自己化身为 Roblox 和 Minecraft 角色

2. Gemini 深刻的场景理解能力

演讲图片变三维线框模型 2D 变 3D 线框模型渲染效果

3. 给不同人物添加墨镜,表现良好

4. 3D 线框 + 语义激光雷达点云测试

3D 测试 雷达点云测试

5. 补画与扩画(in-painting and out-painting)

补画:添加红色激光眼 扩画:扩大画面场景

把梗图改成自己想要的样子,从此以后 so easy。

想脑洞大开制作其他「梗图」,也是轻而易举。

这张黑夜的照片,Gemini 2.0 Flash 能让它秒变白天的图。

可以看出,在把夜景转化为白天的实景时,景观基本上准确的,没有幻觉,如果要挑毛病,就是根据夜景图像产生的图产生了对光照条件的幻觉。

简直让人疯狂。

有人不信邪,亲自上手尝试了一遍后,不得不承认:谷歌这次真的厉害了。

最令人惊喜的是,它几乎没什么限制,可以毫无阻碍地生成名人肖像和受版权保护的角色图像。

比如说,CMU 机器学习博士 James Campbell 就尝试把马斯克 P 到了自己的办公桌上。

这活灵活现的神态,人物和背景自然地融为一体,就问谁能看出来是 P 的?

网友们也纷纷展开实测。感受就是:这个功能太伟大了!

从此,一句话 p 图真的到了 next level。

上班要迟到了,需要火速编个理由,怎么办?打开 Gemini 2.0 Flash,一键搞定。

一句话,美女手中的手机就变成了我们指定的那款。

Gemini 2.0 Flash 和 pika 的结合,也发挥出了奇效。

给模特一键换装,简直做到了极致。

从此,我们不必再去消息工作室拍写真或者证件照了,直接上传一张高清生活照就可以!

同理,一张正面肖像照,也可以切换至侧视图,或者缩小的视角。

各种角度的图片都能生成。

结合 Kling 后,直接就生成了广告大片,有望颠覆模特和广告行业。

角色一致性的保持程度,也令人吃惊。

另外,这个功能还可以用来给我们设计房屋。

比如让家具消失,然后将房屋装修风格改成现代时尚美学。要知道,在美国找室内设计师干这个活,可能会需要五千到一万刀的费用。

甚至,它还能帮我们复原老照片。

去水印,网友们玩疯了!

而在去水印方面,Gemini 2.0 Flash 也是一绝!

这个意外解锁的新技能,可是把网友们激动坏了。

这个功能不要钱,免费无限用,也不会因为删除水印,产生的明显的空白区域。

左:有多个水印的图片;右:Gemini 去水印后的效果

在谷歌 AI Studio 上,可以使用「动动嘴,就能 PS 照片」的功能。

网友对去水印功能情有独钟。很多人实测之后,大为惊喜。

不过,这也引发了不少争议,比如摄影师、设计师的作品被盗用,就会导致版权上的违法行为更加泛滥。

交叉图像功能,一句话「讲故事」

谷歌 DeepMind 研究及深度学习负责人,Gemini 项目共同负责人 Oriol Vinyals,被 Gemini 的新功能惊呆了!

在它看来,它的交叉图像生成功能简直是颠覆性的。

怎样向 2 岁女儿的班级解释 AlphaFold 的工作原理?

只要输入提示:「Write an illustrated story about AlphaFold for toddlers」,图文并茂,符合幼儿园风格的科普书,瞬间产生,Oriol Vinyals 直呼这就是魔法!

AI 可以让 AlphaFold 这样复杂的主题,对幼儿来说都变得更易理解。

Oriol Vinyals 赞叹道:Gemini 2.0 Flash 交错图像生成是一项革命性技术!

这个简短的 demo 向世人展示了 AI + 教育的无限想象空间,以后启蒙教育或许变得更加有趣!

而且,Gemini 2.0 Flash 现在可以让我们输入任何人或物的图片,在此基础上创作出全新的形象,同时还能较好地保持原始人物 / 角色的特征。

游戏、漫画、动漫圈都炸了

Gemini 2.0 Flash 这个新功能,甚至可以用来迭代图像,创建任何游戏!

同时,Gemini 2.0 Flash 也直接攻陷了漫画圈。

现在用它来生成漫画,只需要动动嘴的功夫。

有网友尝试后,发现自己根本停不下来。只需一个简单的提示,就能进行选择性修改,而不会破坏整个图像。

他激动地表示,「用它来制作漫画和故事分镜会变得非常轻松」。

给漫画加个色,也是一句话的事儿。

就连漫画角色的动作------抬起手臂,也能用嘴完成。而且,输出图像与原图保持了高度的一致性。

动漫圈的二次元们更是激动不已,有人惊呼,这是史上最佳动漫模型!

动漫创作的全流程,它都能依指示完成,比如把素描转换为线稿;填充基础色;添加一些柔和的阴影,光源位于左上角;添加一个室内背景,使其与当前的光源和阴影环境相匹配,使用合适的角度;调整为单色灰度,以符合轻小说插画风格等等

更多的测试 demo,自己体会。

谷歌最新生成模型 Gemini API

而且刚刚,又有好消息传来。

今天,开发者可以在 Gemini 2.0 Flash Thinking Experimental 的 API 中,使用图片生成功能了!

用户免费使用限制为 1500 次 / 天,最多 10 次 / 分钟请求。付费价格也很便宜,每百万 tokens 要 0.40 美元。

Gemini API 的开发者 Logan Kilpatrick,宣布 Gemini API 文档已更新,使用代码也可以生成图像了。

开发者们可以用 API 来生成图片做各种有意思的应用。

不懂编程,也没关系,还可以把示例代码作为参考发给 Cursor 之类 AI 编程工具,帮助写生成图片代码。

比如,在文档中,利用 Pyton 代码,生成的「一只戴着高顶帽、长着翅膀的猪」在一座充满绿色植被的未来科幻城市上空飞翔。

在 API 文档中,谷歌也指出了利用 Gemini 修图时的一些限制,如下图。

Gemini API 文档:使用编辑图片功能,建议使用简体中文等获得最佳效果。

参考资料:

x.com/bilawalsidh...

x.com/OriolVinyal...

x.com/gingfreecss...

x.com/deedydas/st...

相关推荐
xiaok11 分钟前
docker network create langbot-network这条命令在dify输入还是在langbot中输入
人工智能
It_张13 分钟前
LLM(大语言模型)的工作原理 图文讲解
人工智能·语言模型·自然语言处理
Darach15 分钟前
坐姿检测Python实现
人工智能·python
xiaok15 分钟前
LangBot 和消息平台均运行在 Docker 容器中
人工智能
queeny24 分钟前
Datawhale AI夏令营 科大讯飞AI大赛(大模型技术) Task3 心得
人工智能
ToTensor24 分钟前
Paraformer实时语音识别中的碎碎念
人工智能·语音识别·xcode
陈佬昔没带相机31 分钟前
Mac Mini 玩大模型避坑指南
人工智能·mac
重启的码农31 分钟前
llama.cpp 分布式推理介绍(4) RPC 服务器 (rpc_server)
c++·人工智能·神经网络
柠檬味拥抱32 分钟前
不确定环境下AI Agent的贝叶斯信念更新策略研究
人工智能
Nona996134 分钟前
从零开始学AI——13
人工智能