
大家好,这里是K姐。
一个帮你追踪最新AI应用的女子。
2025云栖大会终于来啦!今年的主题是"云智一体•硅碳共生",全球50多个国家的2000多位演讲嘉宾齐聚杭州,围绕Agentic AI与Physical AI等前沿话题展开对话,场面堪称一场科技春晚。
今天上午倍受关注的还是阿里最新的大模型------通义万相 Wan2.5-Preview 系列模型。

Wan2.5-Preview 系列模型是多感官叙事,采用原生多模态架构,文本、图像、视频、音频处理能力全面提升,可以直接生成音画同步的视频。
草地弹吉他
这些技术升级,既是阿里在基础模型上的长期投入,也是其面向产业应用、推动大模型生态扩展的体现。
K姐也是第一时间获得了体验资格~接下来,咱们一起看看看看实测效果。

音画同频的关键:跨模态对齐
Wan2.5 提供了图像生成与视频生成两大功能,并且支持由音频搭配prompt/图片生成视频。

我们只需要在日常文/图生视频的提示词基础上,添加对人声、环境音效、背景音乐的描述,就可以得到音画同步的成品视频。
视频生成时长最长为10s,可以生成分辨率为1080p、24fps的高清视频。
话不多说,先放几个实测案例让大家感受下:
- case1 综艺录制
prompt:综艺节目录制现场,舞台布置成客厅风格,柔和的暖色灯光,两张沙发面对观众摆放,中间的茶几上放着饮品和零食。一位年轻男idol坐在沙发上,穿着时尚休闲装,手里拿着话筒,说道:"迷人的话我不会说,但迷人的我正在说话"。现场观众笑声爆发,镜头切到其他嘉宾,他们一边笑一边鼓掌。
迷人的话我不会说
这段5秒的镜头中,Wan2.5 对提示词的遵循度非常高,画面细节也处理得很不错,比如客厅风格、暖色灯光、茶几上的饮品和零食。
人物说话的表情、口型都非常自然,特别是运镜时,人物还主动往嘉宾方向靠,感觉下一秒就该把话筒递过去了...
- case2 户外摄影
上传一张蜗牛的照片
prompt:暴雨天,雨水密集地拍打在草地上,发出"沙沙"的沉闷声,夹杂着水珠溅散的轻响,四周环境空旷而湿润。
蜗牛-下雨天
密集的雨点打在蜗牛壳上,聚成大水珠流下。Wan2.5 对现实世界的理解还不错,根据图片的场景和提示词生成了匹配的环境音效,声音和画面的一致性也很不错。
- case3 演唱会
我们上传一段歌曲的音频。
prompt:特写镜头,一位非常漂亮的女歌手站在演唱会舞台中央深情演唱。她穿着精致的礼服,长发披肩,在微风中轻轻飘动,映着舞台灯光更显动人。她双手紧握话筒,声音高亢饱满,情绪澎湃。
唱歌-野心家
视频的光影和色彩都很不错,特别是发丝光,很灵动很真实。画面中人物的口型与音频也很贴合。
Wan2.5 的音画同步不是简单的让人物嘴巴动起来,还添加了很多细节,比如头微微晃动,脖子用力时紧绷的肌肉、呼吸时肩膀的收缩与起伏,这种细节让整个画面更有生命感,仿佛真的是现场实拍。

Wan2.5与Veo3对比
- case1 美食视频
prompt:一个20岁左右的女大学生,在热闹的小吃街坐着,用筷子夹起一小块红烧肉,慢慢咀嚼,靠近镜头,轻声说道:"好吃"。声音甜美,语气轻快。背景音是小吃街人来人往嘈杂的声音。
wan2.5美食
veo3-美食
Wan2.5 和Veo3生成的画面内容质量都挺好的,但是Veo3似乎遇到BUG了,整个视频都没有声音。
- case2 电视的演变
prompt:锁定广角镜头,从正面拍摄同一客厅,电视位于画面的中央,始终居中构图。画面展示电视在几十年间发展演变,从 1950 年代的黑白电视机,到1970 年代的木质机柜,再到1990 年代的 CRT 显示器,再到2000 年代的平板电视,最后是2020 年代的智能 OLED 电视。家具、颜色和风格也随着时代变迁而变化,复古 70 年代,简约 90 年代,现代 2000 年代,未来 2020 年代。
镜头: 35mm 电影镜头,细节清晰。
音效: 视静电声、频道切换声、遥控器点击声与时代过渡同步。
混合级别: 各时代之间平滑过渡
wan2.5电视机
Veo3电视
Wan2.5 对提示词的遵循程度高很多,电视机始终在画面的正中心,也一直采用中心构图,主题更直观。
装修风格方面,Wan2.5 各年代之间的差别并不大,这点Veo3做得更好一些。
Wan2.5 和Veo3都展示了多个时代的电视机风格,也都添加了切换时的音效。

一些分享
以前的视频生成,总是声音和画面对不上,还需要在不同平台添加人声、对口型、加背景音,现在微量的提示词即可生成一段音画同步的完整视频。
Wan2.5让创作直接"可视化"和"可听化"。做短视频、虚拟主播、甚至远程教学,不需要再依赖复杂的后期,AI 就能一键完成,大大降低了创作门槛。

Wan2.5 能同时对齐声音的节奏、语言的语义、画面的动作,这不仅仅是视频生成的进化,更是迈向多模态AI成熟应用的关键一步。
广告、教育、影视、游戏,过去都要靠人工配音和后期,费钱又费时。Wan2.5 把视频生成拉到生产级工具的水准,低成本高质量的虚拟内容或将全面爆发。