通义万相Wan2.5模型实测，可生成音画同步视频

大家好，这里是K姐。

一个帮你追踪最新AI应用的女子。

2025云栖大会终于来啦！今年的主题是"云智一体•硅碳共生"，全球50多个国家的2000多位演讲嘉宾齐聚杭州，围绕Agentic AI与Physical AI等前沿话题展开对话，场面堪称一场科技春晚。

今天上午倍受关注的还是阿里最新的大模型------通义万相 Wan2.5-Preview 系列模型。

Wan2.5-Preview 系列模型是多感官叙事，采用原生多模态架构，文本、图像、视频、音频处理能力全面提升，可以直接生成音画同步的视频。

草地弹吉他

这些技术升级，既是阿里在基础模型上的长期投入，也是其面向产业应用、推动大模型生态扩展的体现。

K姐也是第一时间获得了体验资格~接下来，咱们一起看看看看实测效果。

音画同频的关键：跨模态对齐

Wan2.5 提供了图像生成与视频生成两大功能，并且支持由音频搭配prompt/图片生成视频。

我们只需要在日常文/图生视频的提示词基础上，添加对人声、环境音效、背景音乐的描述，就可以得到音画同步的成品视频。

视频生成时长最长为10s，可以生成分辨率为1080p、24fps的高清视频。

话不多说，先放几个实测案例让大家感受下：

case1 综艺录制

prompt：综艺节目录制现场，舞台布置成客厅风格，柔和的暖色灯光，两张沙发面对观众摆放，中间的茶几上放着饮品和零食。一位年轻男idol坐在沙发上，穿着时尚休闲装，手里拿着话筒，说道："迷人的话我不会说，但迷人的我正在说话"。现场观众笑声爆发，镜头切到其他嘉宾，他们一边笑一边鼓掌。

迷人的话我不会说

这段5秒的镜头中，Wan2.5 对提示词的遵循度非常高，画面细节也处理得很不错，比如客厅风格、暖色灯光、茶几上的饮品和零食。

人物说话的表情、口型都非常自然，特别是运镜时，人物还主动往嘉宾方向靠，感觉下一秒就该把话筒递过去了...

case2 户外摄影

上传一张蜗牛的照片

prompt：暴雨天，雨水密集地拍打在草地上，发出"沙沙"的沉闷声，夹杂着水珠溅散的轻响，四周环境空旷而湿润。

蜗牛-下雨天

密集的雨点打在蜗牛壳上，聚成大水珠流下。Wan2.5 对现实世界的理解还不错，根据图片的场景和提示词生成了匹配的环境音效，声音和画面的一致性也很不错。

case3 演唱会

我们上传一段歌曲的音频。

prompt：特写镜头，一位非常漂亮的女歌手站在演唱会舞台中央深情演唱。她穿着精致的礼服，长发披肩，在微风中轻轻飘动，映着舞台灯光更显动人。她双手紧握话筒，声音高亢饱满，情绪澎湃。

唱歌-野心家

视频的光影和色彩都很不错，特别是发丝光，很灵动很真实。画面中人物的口型与音频也很贴合。

Wan2.5 的音画同步不是简单的让人物嘴巴动起来，还添加了很多细节，比如头微微晃动，脖子用力时紧绷的肌肉、呼吸时肩膀的收缩与起伏，这种细节让整个画面更有生命感，仿佛真的是现场实拍。

Wan2.5与Veo3对比

case1 美食视频

prompt：一个20岁左右的女大学生，在热闹的小吃街坐着，用筷子夹起一小块红烧肉，慢慢咀嚼，靠近镜头，轻声说道："好吃"。声音甜美，语气轻快。背景音是小吃街人来人往嘈杂的声音。

wan2.5美食

veo3-美食

Wan2.5 和Veo3生成的画面内容质量都挺好的，但是Veo3似乎遇到BUG了，整个视频都没有声音。

case2 电视的演变

prompt：锁定广角镜头，从正面拍摄同一客厅，电视位于画面的中央，始终居中构图。画面展示电视在几十年间发展演变，从 1950 年代的黑白电视机，到1970 年代的木质机柜，再到1990 年代的 CRT 显示器，再到2000 年代的平板电视，最后是2020 年代的智能 OLED 电视。家具、颜色和风格也随着时代变迁而变化，复古 70 年代，简约 90 年代，现代 2000 年代，未来 2020 年代。

镜头: 35mm 电影镜头，细节清晰。

音效: 视静电声、频道切换声、遥控器点击声与时代过渡同步。

混合级别: 各时代之间平滑过渡

wan2.5电视机

Veo3电视

Wan2.5 对提示词的遵循程度高很多，电视机始终在画面的正中心，也一直采用中心构图，主题更直观。

装修风格方面，Wan2.5 各年代之间的差别并不大，这点Veo3做得更好一些。

Wan2.5 和Veo3都展示了多个时代的电视机风格，也都添加了切换时的音效。

一些分享

以前的视频生成，总是声音和画面对不上，还需要在不同平台添加人声、对口型、加背景音，现在微量的提示词即可生成一段音画同步的完整视频。

Wan2.5让创作直接"可视化"和"可听化"。做短视频、虚拟主播、甚至远程教学，不需要再依赖复杂的后期，AI 就能一键完成，大大降低了创作门槛。

Wan2.5 能同时对齐声音的节奏、语言的语义、画面的动作，这不仅仅是视频生成的进化，更是迈向多模态AI成熟应用的关键一步。

广告、教育、影视、游戏，过去都要靠人工配音和后期，费钱又费时。Wan2.5 把视频生成拉到生产级工具的水准，低成本高质量的虚拟内容或将全面爆发。