高能预警,谷歌神器一句话 P 图全网震动!PS 直接淘汰,模特广告业不存在了?

【新智元导读】谷歌的 Gemini 2.0 Flash 凭一句话 PS 的功能,还在全网不断掀起新的风暴!广告业直接被颠覆,模特从此彻底不存在了。去水印、梗图、交叉图像,已经被网友玩疯。甚至有人预言:谷歌已全面超越 OpenAI,将率先实现 AGI。

最近,谷歌的种种 AI 产品是全方位领先,大有全面超越 OpenAI 的架势。

如今已经有人预测:谷歌 DeepMind 将比 OpenAI 率先实现 AGI!

原因很明显,如今谷歌 DeepMind 在多个领域布局下的产品,已经表现出全面获胜之势,而且,它们并没有炒作。

**最佳通用模型:**Gemini 2.0 Flash

**最佳多模态:**Gemini 2.0 Flash / Gemini 2.0 Pro Experimental

**最佳原生图像生成:**Gemini 2.0 Flash

**最佳文本 / 图像到视频:**Veo-2

**最佳图像生成:**Imagen-3

**最大的上下文窗口:**2M(Gemini 2.0 Pro Experimental)

此外,谷歌的原生音频生成功能也将很快上线。

对比之下,OpenAI 近期最令人印象深刻的行动,大概就是发出 15 页提案,呼吁美国政府全面封禁 DeepSeek、锁死中国 AI 了,这么一对比,简直高下立判。

总之,谷歌 DeepMind 不炒作,不对其他竞品评头论足,只是默默做事,给大众留下了非常清新的印象。

如今,它已经愈发势不可挡,而在机器人开发领域,如果仅是将额外开发的技术推向市场,或许就会引发巨大的冲击波。

学会超强推理的模型,更懂怎么生图了

四天前,谷歌宣布,自己的首个向公众发布的全模态图像生成器上线,Gemini 2.0 Flash 可以进行原生图像生成了。

「一句话就能 PS」的功能,当即震惊了全部网友。

Gemini 生成的开怀大笑的蒙娜丽莎

几天过去了,Gemini 2.0 Flash 引发的余震,还在不断回响。

一句话去水印、交叉图像生成等功能,被网友们玩疯了。大家公认:它已经可以轻松取代 Photoshop。

全模态图像生成器,跟其他 AI 生图模型最大的区别在哪里?

因为它自身具备的超强推理能力,能结合现实世界的知识生成更符合上下文的图像,理解更多细节,更遵循文化背景特征。

其中,全程都是由 Gemini 模型完成,无需调用其他模型,只需通过自然语言提示。

此外,传统的 AI 生图器需要分开处理文本和图片,它则是能同时输出文本和插图,保持惊人的一致性。

**真正的多模态能力:**同时理解文字、图像,以及二者联系

**理解世界知识:**能做智能推理,结合现实世界知识生成准确内容

**自然语言交互:**仅用对话修改图片,真正实现一句话 PS

如此强大、令人震撼的修图功能,不禁让网友 Oleks 推测:以买图为主业的公司,股价将暴跌、一泻千里!

一句话 PS,收费 PhotoShop 被创飞

如今看来,PS 是已经被彻底颠覆了。

从 11 岁起从事视觉特效的 Bilawal Sidhu 表示,谷歌的 Gemini 新功能「一句话 PS」将消除 PS 高手和小白之间的技术壁垒。

他展示了 5 个例子,用 Gemini 搞特效就是这么简单。

1. 将自己化身为 Roblox 和 Minecraft 角色

2. Gemini 深刻的场景理解能力

演讲图片变三维线框模型 2D 变 3D 线框模型渲染效果

3. 给不同人物添加墨镜,表现良好

4. 3D 线框 + 语义激光雷达点云测试

3D 测试 雷达点云测试

5. 补画与扩画(in-painting and out-painting)

补画:添加红色激光眼 扩画:扩大画面场景

把梗图改成自己想要的样子,从此以后 so easy。

想脑洞大开制作其他「梗图」,也是轻而易举。

这张黑夜的照片,Gemini 2.0 Flash 能让它秒变白天的图。

可以看出,在把夜景转化为白天的实景时,景观基本上准确的,没有幻觉,如果要挑毛病,就是根据夜景图像产生的图产生了对光照条件的幻觉。

简直让人疯狂。

有人不信邪,亲自上手尝试了一遍后,不得不承认:谷歌这次真的厉害了。

最令人惊喜的是,它几乎没什么限制,可以毫无阻碍地生成名人肖像和受版权保护的角色图像。

比如说,CMU 机器学习博士 James Campbell 就尝试把马斯克 P 到了自己的办公桌上。

这活灵活现的神态,人物和背景自然地融为一体,就问谁能看出来是 P 的?

网友们也纷纷展开实测。感受就是:这个功能太伟大了!

从此,一句话 p 图真的到了 next level。

上班要迟到了,需要火速编个理由,怎么办?打开 Gemini 2.0 Flash,一键搞定。

一句话,美女手中的手机就变成了我们指定的那款。

Gemini 2.0 Flash 和 pika 的结合,也发挥出了奇效。

给模特一键换装,简直做到了极致。

从此,我们不必再去消息工作室拍写真或者证件照了,直接上传一张高清生活照就可以!

同理,一张正面肖像照,也可以切换至侧视图,或者缩小的视角。

各种角度的图片都能生成。

结合 Kling 后,直接就生成了广告大片,有望颠覆模特和广告行业。

角色一致性的保持程度,也令人吃惊。

另外,这个功能还可以用来给我们设计房屋。

比如让家具消失,然后将房屋装修风格改成现代时尚美学。要知道,在美国找室内设计师干这个活,可能会需要五千到一万刀的费用。

甚至,它还能帮我们复原老照片。

去水印,网友们玩疯了!

而在去水印方面,Gemini 2.0 Flash 也是一绝!

这个意外解锁的新技能,可是把网友们激动坏了。

这个功能不要钱,免费无限用,也不会因为删除水印,产生的明显的空白区域。

左:有多个水印的图片;右:Gemini 去水印后的效果

在谷歌 AI Studio 上,可以使用「动动嘴,就能 PS 照片」的功能。

网友对去水印功能情有独钟。很多人实测之后,大为惊喜。

不过,这也引发了不少争议,比如摄影师、设计师的作品被盗用,就会导致版权上的违法行为更加泛滥。

交叉图像功能,一句话「讲故事」

谷歌 DeepMind 研究及深度学习负责人,Gemini 项目共同负责人 Oriol Vinyals,被 Gemini 的新功能惊呆了!

在它看来,它的交叉图像生成功能简直是颠覆性的。

怎样向 2 岁女儿的班级解释 AlphaFold 的工作原理?

只要输入提示:「Write an illustrated story about AlphaFold for toddlers」,图文并茂,符合幼儿园风格的科普书,瞬间产生,Oriol Vinyals 直呼这就是魔法!

AI 可以让 AlphaFold 这样复杂的主题,对幼儿来说都变得更易理解。

Oriol Vinyals 赞叹道:Gemini 2.0 Flash 交错图像生成是一项革命性技术!

这个简短的 demo 向世人展示了 AI + 教育的无限想象空间,以后启蒙教育或许变得更加有趣!

而且,Gemini 2.0 Flash 现在可以让我们输入任何人或物的图片,在此基础上创作出全新的形象,同时还能较好地保持原始人物 / 角色的特征。

游戏、漫画、动漫圈都炸了

Gemini 2.0 Flash 这个新功能,甚至可以用来迭代图像,创建任何游戏!

同时,Gemini 2.0 Flash 也直接攻陷了漫画圈。

现在用它来生成漫画,只需要动动嘴的功夫。

有网友尝试后,发现自己根本停不下来。只需一个简单的提示,就能进行选择性修改,而不会破坏整个图像。

他激动地表示,「用它来制作漫画和故事分镜会变得非常轻松」。

给漫画加个色,也是一句话的事儿。

就连漫画角色的动作------抬起手臂,也能用嘴完成。而且,输出图像与原图保持了高度的一致性。

动漫圈的二次元们更是激动不已,有人惊呼,这是史上最佳动漫模型!

动漫创作的全流程,它都能依指示完成,比如把素描转换为线稿;填充基础色;添加一些柔和的阴影,光源位于左上角;添加一个室内背景,使其与当前的光源和阴影环境相匹配,使用合适的角度;调整为单色灰度,以符合轻小说插画风格等等

更多的测试 demo,自己体会。

谷歌最新生成模型 Gemini API

而且刚刚,又有好消息传来。

今天,开发者可以在 Gemini 2.0 Flash Thinking Experimental 的 API 中,使用图片生成功能了!

用户免费使用限制为 1500 次 / 天,最多 10 次 / 分钟请求。付费价格也很便宜,每百万 tokens 要 0.40 美元。

Gemini API 的开发者 Logan Kilpatrick,宣布 Gemini API 文档已更新,使用代码也可以生成图像了。

开发者们可以用 API 来生成图片做各种有意思的应用。

不懂编程,也没关系,还可以把示例代码作为参考发给 Cursor 之类 AI 编程工具,帮助写生成图片代码。

比如,在文档中,利用 Pyton 代码,生成的「一只戴着高顶帽、长着翅膀的猪」在一座充满绿色植被的未来科幻城市上空飞翔。

在 API 文档中,谷歌也指出了利用 Gemini 修图时的一些限制,如下图。

Gemini API 文档:使用编辑图片功能,建议使用简体中文等获得最佳效果。

参考资料:

x.com/bilawalsidh...

x.com/OriolVinyal...

x.com/gingfreecss...

x.com/deedydas/st...

相关推荐
Elastic 中国社区官方博客2 分钟前
Elasticsearch:为推理端点配置分块设置
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
Luis Li 的猫猫11 分钟前
支持向量机SVM的MATLAB分类预测实现
人工智能·机器学习·支持向量机·matlab·分类
丶213621 分钟前
【AI】使用Python实现机器学习小项目教程
人工智能·python·机器学习
liruiqiang0525 分钟前
卷积神经网络 - 从全连接到卷积
人工智能·深度学习·神经网络·机器学习·cnn
weixi_kelaile52029 分钟前
智能电话机器人的技术原理是什么?AI语音机器人评判标准是什么?
运维·服务器·人工智能·机器人·语音识别
风吹斜刘海1 小时前
yolov5项目增加注意力机制
人工智能
忧郁蓝调261 小时前
RAGFlow部署与使用(开源本地知识库管理系统,包括kibana配置)
人工智能·开源·大模型·github·知识库·rag·ragflow
泰迪智能科技011 小时前
Deepseek结合企业数据挖掘平台能够给企业提升哪些效益?
人工智能·数据挖掘
棉花糖老丫2 小时前
如何使用Spring AI提示词模板PromptTemplate?
java·人工智能·spring·ai