通义万相Wan2.5模型实测,可生成音画同步视频

大家好,这里是K姐。

一个帮你追踪最新AI应用的女子。

2025云栖大会终于来啦!今年的主题是"云智一体•硅碳共生",全球50多个国家的2000多位演讲嘉宾齐聚杭州,围绕Agentic AI与Physical AI等前沿话题展开对话,场面堪称一场科技春晚。

今天上午倍受关注的还是阿里最新的大模型------通义万相 Wan2.5-Preview 系列模型

Wan2.5-Preview 系列模型是多感官叙事,采用原生多模态架构,文本、图像、视频、音频处理能力全面提升,可以直接生成音画同步的视频。

草地弹吉他

这些技术升级,既是阿里在基础模型上的长期投入,也是其面向产业应用、推动大模型生态扩展的体现。

K姐也是第一时间获得了体验资格~接下来,咱们一起看看看看实测效果。

音画同频的关键:跨模态对齐

Wan2.5 提供了图像生成与视频生成两大功能,并且支持由音频搭配prompt/图片生成视频

我们只需要在日常文/图生视频的提示词基础上,添加对人声、环境音效、背景音乐的描述,就可以得到音画同步的成品视频。

视频生成时长最长为10s,可以生成分辨率为1080p、24fps的高清视频。

话不多说,先放几个实测案例让大家感受下:

  • case1 综艺录制

prompt:综艺节目录制现场,舞台布置成客厅风格,柔和的暖色灯光,两张沙发面对观众摆放,中间的茶几上放着饮品和零食。一位年轻男idol坐在沙发上,穿着时尚休闲装,手里拿着话筒,说道:"迷人的话我不会说,但迷人的我正在说话"。现场观众笑声爆发,镜头切到其他嘉宾,他们一边笑一边鼓掌。

迷人的话我不会说

这段5秒的镜头中,Wan2.5 对提示词的遵循度非常高,画面细节也处理得很不错,比如客厅风格、暖色灯光、茶几上的饮品和零食。

人物说话的表情、口型都非常自然,特别是运镜时,人物还主动往嘉宾方向靠,感觉下一秒就该把话筒递过去了...

  • case2 户外摄影

上传一张蜗牛的照片

prompt:暴雨天,雨水密集地拍打在草地上,发出"沙沙"的沉闷声,夹杂着水珠溅散的轻响,四周环境空旷而湿润。

蜗牛-下雨天

密集的雨点打在蜗牛壳上,聚成大水珠流下。Wan2.5 对现实世界的理解还不错,根据图片的场景和提示词生成了匹配的环境音效,声音和画面的一致性也很不错。

  • case3 演唱会

我们上传一段歌曲的音频。

prompt:特写镜头,一位非常漂亮的女歌手站在演唱会舞台中央深情演唱。她穿着精致的礼服,长发披肩,在微风中轻轻飘动,映着舞台灯光更显动人。她双手紧握话筒,声音高亢饱满,情绪澎湃。

唱歌-野心家

视频的光影和色彩都很不错,特别是发丝光,很灵动很真实。画面中人物的口型与音频也很贴合。

Wan2.5 的音画同步不是简单的让人物嘴巴动起来,还添加了很多细节,比如头微微晃动,脖子用力时紧绷的肌肉、呼吸时肩膀的收缩与起伏,这种细节让整个画面更有生命感,仿佛真的是现场实拍。

Wan2.5与Veo3对比

  • case1 美食视频

prompt:一个20岁左右的女大学生,在热闹的小吃街坐着,用筷子夹起一小块红烧肉,慢慢咀嚼,靠近镜头,轻声说道:"好吃"。声音甜美,语气轻快。背景音是小吃街人来人往嘈杂的声音。

wan2.5美食

veo3-美食

Wan2.5 和Veo3生成的画面内容质量都挺好的,但是Veo3似乎遇到BUG了,整个视频都没有声音。

  • case2 电视的演变

prompt:锁定广角镜头,从正面拍摄同一客厅,电视位于画面的中央,始终居中构图。画面展示电视在几十年间发展演变,从 1950 年代的黑白电视机,到1970 年代的木质机柜,再到1990 年代的 CRT 显示器,再到2000 年代的平板电视,最后是2020 年代的智能 OLED 电视。家具、颜色和风格也随着时代变迁而变化,复古 70 年代,简约 90 年代,现代 2000 年代,未来 2020 年代。

镜头: 35mm 电影镜头,细节清晰。

音效: 视静电声、频道切换声、遥控器点击声与时代过渡同步。

混合级别: 各时代之间平滑过渡

wan2.5电视机

Veo3电视

Wan2.5 对提示词的遵循程度高很多,电视机始终在画面的正中心,也一直采用中心构图,主题更直观。

装修风格方面,Wan2.5 各年代之间的差别并不大,这点Veo3做得更好一些。

Wan2.5 和Veo3都展示了多个时代的电视机风格,也都添加了切换时的音效。

一些分享

以前的视频生成,总是声音和画面对不上,还需要在不同平台添加人声、对口型、加背景音,现在微量的提示词即可生成一段音画同步的完整视频。

Wan2.5让创作直接"可视化"和"可听化"。做短视频、虚拟主播、甚至远程教学,不需要再依赖复杂的后期,AI 就能一键完成,大大降低了创作门槛。

Wan2.5 能同时对齐声音的节奏、语言的语义、画面的动作,这不仅仅是视频生成的进化,更是迈向多模态AI成熟应用的关键一步。

广告、教育、影视、游戏,过去都要靠人工配音和后期,费钱又费时。Wan2.5 把视频生成拉到生产级工具的水准,低成本高质量的虚拟内容或将全面爆发。

相关推荐
云起SAAS2 小时前
老年ai模拟恋爱抖音快手微信小程序看广告流量主开源
人工智能·微信小程序·小程序·ai编程·看广告变现轻·老年ai模拟恋爱·ai模拟恋爱
程序员X小鹿3 小时前
国产AI又出王炸!拜拜Suno,这个国内首个对话式音乐创作Agent更好用!(附实测体验)
aigc
ModelWhale4 小时前
喜报!和鲸科技获张江国家自主创新示范区专项发展资金支持
大数据·人工智能·科研
飞哥数智坊5 小时前
AI 编程时代,你得学会“狠心”删代码
人工智能·ai编程
stbomei5 小时前
静默期的跃迁:2025 年 AI 技术落地与产业重构路径
人工智能·重构
可触的未来,发芽的智生5 小时前
新奇特:神经网络烘焙坊(下),万能配方的甜蜜奥义
人工智能·python·神经网络·算法·架构
RoboWizard5 小时前
移动固态硬盘无法被电脑识别怎么办?
大数据·人工智能·缓存·电脑·金士顿
zero13_小葵司5 小时前
基于多Agent构建AI驱动的智能化软件开发协作平台
人工智能·aigc·软件工程·团队开发·ai编程
jllllyuz5 小时前
matlab裂纹检测与延展分析系统
人工智能·计算机视觉·matlab