【新智元导读】谷歌的 Gemini 2.0 Flash 凭一句话 PS 的功能,还在全网不断掀起新的风暴!广告业直接被颠覆,模特从此彻底不存在了。去水印、梗图、交叉图像,已经被网友玩疯。甚至有人预言:谷歌已全面超越 OpenAI,将率先实现 AGI。
最近,谷歌的种种 AI 产品是全方位领先,大有全面超越 OpenAI 的架势。
如今已经有人预测:谷歌 DeepMind 将比 OpenAI 率先实现 AGI!
原因很明显,如今谷歌 DeepMind 在多个领域布局下的产品,已经表现出全面获胜之势,而且,它们并没有炒作。
**最佳通用模型:**Gemini 2.0 Flash
**最佳多模态:**Gemini 2.0 Flash / Gemini 2.0 Pro Experimental
**最佳原生图像生成:**Gemini 2.0 Flash
**最佳文本 / 图像到视频:**Veo-2
**最佳图像生成:**Imagen-3
**最大的上下文窗口:**2M(Gemini 2.0 Pro Experimental)
此外,谷歌的原生音频生成功能也将很快上线。
对比之下,OpenAI 近期最令人印象深刻的行动,大概就是发出 15 页提案,呼吁美国政府全面封禁 DeepSeek、锁死中国 AI 了,这么一对比,简直高下立判。
总之,谷歌 DeepMind 不炒作,不对其他竞品评头论足,只是默默做事,给大众留下了非常清新的印象。
如今,它已经愈发势不可挡,而在机器人开发领域,如果仅是将额外开发的技术推向市场,或许就会引发巨大的冲击波。
学会超强推理的模型,更懂怎么生图了
四天前,谷歌宣布,自己的首个向公众发布的全模态图像生成器上线,Gemini 2.0 Flash 可以进行原生图像生成了。
「一句话就能 PS」的功能,当即震惊了全部网友。
Gemini 生成的开怀大笑的蒙娜丽莎
几天过去了,Gemini 2.0 Flash 引发的余震,还在不断回响。
一句话去水印、交叉图像生成等功能,被网友们玩疯了。大家公认:它已经可以轻松取代 Photoshop。
全模态图像生成器,跟其他 AI 生图模型最大的区别在哪里?
因为它自身具备的超强推理能力,能结合现实世界的知识生成更符合上下文的图像,理解更多细节,更遵循文化背景特征。
其中,全程都是由 Gemini 模型完成,无需调用其他模型,只需通过自然语言提示。
此外,传统的 AI 生图器需要分开处理文本和图片,它则是能同时输出文本和插图,保持惊人的一致性。
**真正的多模态能力:**同时理解文字、图像,以及二者联系
**理解世界知识:**能做智能推理,结合现实世界知识生成准确内容
**自然语言交互:**仅用对话修改图片,真正实现一句话 PS
如此强大、令人震撼的修图功能,不禁让网友 Oleks 推测:以买图为主业的公司,股价将暴跌、一泻千里!
一句话 PS,收费 PhotoShop 被创飞
如今看来,PS 是已经被彻底颠覆了。
从 11 岁起从事视觉特效的 Bilawal Sidhu 表示,谷歌的 Gemini 新功能「一句话 PS」将消除 PS 高手和小白之间的技术壁垒。
他展示了 5 个例子,用 Gemini 搞特效就是这么简单。
1. 将自己化身为 Roblox 和 Minecraft 角色
2. Gemini 深刻的场景理解能力
演讲图片变三维线框模型 | 2D 变 3D 线框模型渲染效果 |
3. 给不同人物添加墨镜,表现良好
4. 3D 线框 + 语义激光雷达点云测试
3D 测试 | 雷达点云测试 |
5. 补画与扩画(in-painting and out-painting)
补画:添加红色激光眼 | 扩画:扩大画面场景 |
把梗图改成自己想要的样子,从此以后 so easy。
想脑洞大开制作其他「梗图」,也是轻而易举。
这张黑夜的照片,Gemini 2.0 Flash 能让它秒变白天的图。
可以看出,在把夜景转化为白天的实景时,景观基本上准确的,没有幻觉,如果要挑毛病,就是根据夜景图像产生的图产生了对光照条件的幻觉。
简直让人疯狂。
有人不信邪,亲自上手尝试了一遍后,不得不承认:谷歌这次真的厉害了。
最令人惊喜的是,它几乎没什么限制,可以毫无阻碍地生成名人肖像和受版权保护的角色图像。
比如说,CMU 机器学习博士 James Campbell 就尝试把马斯克 P 到了自己的办公桌上。
这活灵活现的神态,人物和背景自然地融为一体,就问谁能看出来是 P 的?
网友们也纷纷展开实测。感受就是:这个功能太伟大了!
从此,一句话 p 图真的到了 next level。
上班要迟到了,需要火速编个理由,怎么办?打开 Gemini 2.0 Flash,一键搞定。
一句话,美女手中的手机就变成了我们指定的那款。
Gemini 2.0 Flash 和 pika 的结合,也发挥出了奇效。
给模特一键换装,简直做到了极致。
从此,我们不必再去消息工作室拍写真或者证件照了,直接上传一张高清生活照就可以!
同理,一张正面肖像照,也可以切换至侧视图,或者缩小的视角。
各种角度的图片都能生成。
结合 Kling 后,直接就生成了广告大片,有望颠覆模特和广告行业。
角色一致性的保持程度,也令人吃惊。
另外,这个功能还可以用来给我们设计房屋。
比如让家具消失,然后将房屋装修风格改成现代时尚美学。要知道,在美国找室内设计师干这个活,可能会需要五千到一万刀的费用。
甚至,它还能帮我们复原老照片。
去水印,网友们玩疯了!
而在去水印方面,Gemini 2.0 Flash 也是一绝!
这个意外解锁的新技能,可是把网友们激动坏了。
这个功能不要钱,免费无限用,也不会因为删除水印,产生的明显的空白区域。
左:有多个水印的图片;右:Gemini 去水印后的效果
在谷歌 AI Studio 上,可以使用「动动嘴,就能 PS 照片」的功能。
网友对去水印功能情有独钟。很多人实测之后,大为惊喜。
不过,这也引发了不少争议,比如摄影师、设计师的作品被盗用,就会导致版权上的违法行为更加泛滥。
交叉图像功能,一句话「讲故事」
谷歌 DeepMind 研究及深度学习负责人,Gemini 项目共同负责人 Oriol Vinyals,被 Gemini 的新功能惊呆了!
在它看来,它的交叉图像生成功能简直是颠覆性的。
怎样向 2 岁女儿的班级解释 AlphaFold 的工作原理?
只要输入提示:「Write an illustrated story about AlphaFold for toddlers」,图文并茂,符合幼儿园风格的科普书,瞬间产生,Oriol Vinyals 直呼这就是魔法!
AI 可以让 AlphaFold 这样复杂的主题,对幼儿来说都变得更易理解。
Oriol Vinyals 赞叹道:Gemini 2.0 Flash 交错图像生成是一项革命性技术!
这个简短的 demo 向世人展示了 AI + 教育的无限想象空间,以后启蒙教育或许变得更加有趣!
而且,Gemini 2.0 Flash 现在可以让我们输入任何人或物的图片,在此基础上创作出全新的形象,同时还能较好地保持原始人物 / 角色的特征。
游戏、漫画、动漫圈都炸了
Gemini 2.0 Flash 这个新功能,甚至可以用来迭代图像,创建任何游戏!
同时,Gemini 2.0 Flash 也直接攻陷了漫画圈。
现在用它来生成漫画,只需要动动嘴的功夫。
有网友尝试后,发现自己根本停不下来。只需一个简单的提示,就能进行选择性修改,而不会破坏整个图像。
他激动地表示,「用它来制作漫画和故事分镜会变得非常轻松」。
给漫画加个色,也是一句话的事儿。
就连漫画角色的动作------抬起手臂,也能用嘴完成。而且,输出图像与原图保持了高度的一致性。
动漫圈的二次元们更是激动不已,有人惊呼,这是史上最佳动漫模型!
动漫创作的全流程,它都能依指示完成,比如把素描转换为线稿;填充基础色;添加一些柔和的阴影,光源位于左上角;添加一个室内背景,使其与当前的光源和阴影环境相匹配,使用合适的角度;调整为单色灰度,以符合轻小说插画风格等等
更多的测试 demo,自己体会。
谷歌最新生成模型 Gemini API
而且刚刚,又有好消息传来。
今天,开发者可以在 Gemini 2.0 Flash Thinking Experimental 的 API 中,使用图片生成功能了!
用户免费使用限制为 1500 次 / 天,最多 10 次 / 分钟请求。付费价格也很便宜,每百万 tokens 要 0.40 美元。
Gemini API 的开发者 Logan Kilpatrick,宣布 Gemini API 文档已更新,使用代码也可以生成图像了。
开发者们可以用 API 来生成图片做各种有意思的应用。
不懂编程,也没关系,还可以把示例代码作为参考发给 Cursor 之类 AI 编程工具,帮助写生成图片代码。
比如,在文档中,利用 Pyton 代码,生成的「一只戴着高顶帽、长着翅膀的猪」在一座充满绿色植被的未来科幻城市上空飞翔。
在 API 文档中,谷歌也指出了利用 Gemini 修图时的一些限制,如下图。
Gemini API 文档:使用编辑图片功能,建议使用简体中文等获得最佳效果。
参考资料: