2024 = AI视频元年?也许这次,谷歌不会再落后了

2023年是AI大爆发的一年。年初爆火全球的ChatGPT开始,大家惊讶地发现AI大模型竟然可以那么强。紧接着AI绘画成功接棒,Midjourney、Stable Diffuison等工具爆火全网,AI绘画的品质已经到了人类无法匹敌的程度了。有国外网友整理了AI绘图工具Midjourney在不到2年时间里,从V1更新到了V6版本,AI绘画的品质出现了巨幅的进步,足以以假乱真。

23年AI领域最成功的两款技术/产品,就是大模型和AI绘画了。当然还有其他一些AI的技术在茁壮成长中,比如AI视频。甚至,2024年可能是AI视频元年,而这一次谷歌可能不会落后了。

谷歌在AI视频领域可能不会落后

谷歌在AI领域有种起了个大早,却赶了个晚集的感觉。AI绘画领域,谷歌早在2015年就研究发布了deep dream项目,可以用它画出非常迷幻和超现实的图画。然而AI绘画这一波大的发展,谷歌却几乎没有参与感。

大模型领域也是一样,OpenAI发布了ChatGPT后爆火全球,引领AI大模型逐渐深入改变各个行业,这一次谷歌又是落后追随者。

谷歌在23年的两次AI大爆发,大模型和AI绘画,并没有站在舞台中央。24年,战火可能要烧到AI视频生成------生成式AI的下一波风口,这一次,谷歌迅速跟上,发布了名为VideoPoet的大语言模型,被认为是具有革命性的AI视频生成工具。

就目前谷歌官方公布出来的新闻和模型效果来看, VideoPoet 真的有点厉害。它支持文字描述生视频、图片生视频、视频风格迁移,甚至还支持视频转语音。几乎已经把视频制作流程中可能涉及到的部分,都已经涵盖了。

技术角度, VideoPoet通过将多种视频生成技术融合到一个模型中,大大提高了视频制作的效率和效果。

接下来我们不看配方看疗效,直接看一下VideoPoet生成的视频案例。

文字生成视频

文本生成视频,视频输出的长度是可变的,并且可以根据文本内容应用一系列动作和样式。

图片生成视频

VideoPoet 可以获取输入图像并通过提示将其动画化。让加闪电就加闪电,让加流星就加流星。

VideoPoet可以将运动应用于输入的图片,根据文本提示将其内容编辑为所需的状态。比如让蒙娜丽莎打哈欠。

视频风格化

VideoPoet 可以进行视频风格化,使用文本提示、深度和光流作为条件,直接一键改变视频风格。

生成音频

VideoPoet 还能够生成音频。可以实现先生成视频,然后尝试在没有任何文本指导的情况下预测音频。比如以下案例中,直接给视频配了一个打架子鼓的音频。

随着生成式 AI 的发展,最近出现的各种新的视频生成模型,这些模型展示了令人惊叹的画面质量。Google这次发布的VideoPoet,提出了一种新的思路,将各种视频生成技术融合到一个模型中,一次性解决问题,也许是一款革命性的AI视频技术。有人呼吁谷歌赶紧把 VideoPoet 开源了,大家都等不及了。

今天就聊到这了,我是Glen,感谢你看我的文章,欢迎大家继续支持我,请点赞、收藏、分享三连走一波吧~

相关推荐
Coovally AI模型快速验证2 分钟前
多校联合提出LLM-as-Judge:大模型评判无人机电力线分割,无真值场景下守护安全
人工智能·计算机视觉·电力巡检
AI阿阳5 分钟前
✅真・喂饭级教程:2026 年 OpenClaw(Clawdbot)新手部署 + 飞书接入步骤流程
人工智能·windows·飞书·openclaw·openclaw 教程·本地 ai 部署
丷丩5 分钟前
策略模式实战:GeoAI-UP中MVT发布器的可扩展架构设计
人工智能·架构·gis·策略模式·空间分析·geoai
把你微分微掉10 分钟前
6G研究热点:五大可重构天线技术与未来方向
人工智能·信息与通信
科研前沿11 分钟前
深耕像素实景重构,夯实视频孪生技术根基——锻造硬核底层能力,铸就镜像视界行业标杆
大数据·人工智能·数码相机·机器学习·重构
2603_9547083112 分钟前
微电网对等控制架构:多代理系统的协调运行与自主决策
人工智能·物联网·架构·系统架构·能源
AI_Auto12 分钟前
【转载】- 欧美制造企业AI+PLM现状及意向调研白皮书
大数据·人工智能·制造
AI搅拌机14 分钟前
LoRA训练自动化打标系统重磅发布!支持Qwen3.5破限和NSFW,功能覆盖图片视频音乐全自动打标
人工智能·自动化·音视频
wangqiaowq16 分钟前
@CrossOrigin 是 Spring 提供的跨域支持注解,但不允许携带凭证
人工智能
大橙子打游戏18 分钟前
当 Codex 遇上 AI 中转站:写一个协议转换代理解决 Responses API 的兼容性困境
人工智能