通义万相2.5系列模型发布，可生成音画同步视频

9月24日，在2025杭州云栖大会上，阿里发布通义万相Wan2.5 preview系列模型，涵盖文生视频、图生视频、文生图和图像编辑四大模型，其中，通义万相2.5视频生成模型能生成和画面匹配的人声、音效和音乐BGM，首次实现音画同步的视频生成能力，进一步降低电影级视频创作的门槛。即日起，用户可在阿里云百炼平台调用API，或在通义万相官网直接体验。

全新的通义万相2.5在创作能力上实现了全面升级：视频生成时长从5秒提升至10秒，单次生成可实现更完整的剧情故事；支持24帧每秒的1080P高清视频生成，画面质量进一步提升，满足电影级场景的创作需求；与此同时，模型指令遵循能力进一步提升，在视频生成任务中可理解运镜等复杂连续变化指令控制，图像编辑任务也可以跟随指令一键实现人物变身、风格变化等效果。

据介绍，相比前几代通义万相模型，通义万相2.5在技术架构上实现了重大更新：首次采用原生多模态架构，在同一套框架下支持理解和生成等多种任务，支持文本、图像、视频、音频多种模态的输入和输出，能实现音画同步的视频生成等多模态能力。用户输入提示词即可生成人声、环境音效和背景音乐，并且精准与画面内容、人物口型匹配，让视频演绎更加生动形象。通义万相2.5也支持输入一段音频作为参考，来驱动文字或图片生成音画同步的视频。

例如，输入Prompt：仰视角度拍摄，全景，日光，晴天光，侧光，暖色调，中心构图。一名外国男子在城市公园的水泥广场上玩滑板，他约二十多岁，身材健硕，深色短发藏在黑色棒球帽下，身穿深灰色连帽上衣和黑色工装裤，脚踩一双黑白拼色运动鞋。镜头从低角度仰拍，突出其腾空动作的张力。他站在滑板上加速前行，身体前倾，双臂自然张开以维持平衡；随后猛然跃起，右脚轻踢板尾，滑板在空中完成180度翻转，他迅速下压接住滑板，双脚精准落回板面，稳稳着地后继续向前滑行。背景中，三两名滑板者在远处滑行穿梭，梧桐树叶在微风中轻轻摇曳，阳光穿过树叶间隙洒下斑驳光影，投射在地面和滑板轮迹上。伴随着节奏鲜明的都市电子音乐，背景传来轮子摩擦地面的沙沙声与远处隐约的交谈声。男子落地瞬间轻哼一声"Yeah!"，语气轻快自信。

通义万相能精准理解复杂指令的多个关键词，生成一段男子滑板的动感视频，不仅实现动作、拍摄角度和光影遵循指令，视频展现的人声、滑板滚动音效以及背景音也和画面内容、指令保持同步。

输入一张图片和一段文字，通义万相可生成音画同步的视频

此次，通义万相2.5还全面升级了图像生成能力，可生成中英文文字和图表，包含复杂文字排版、艺术海报、流程图、架构图等，同时支持图像编辑功能，输入一句话即可完成P图。

通义万相模型家族已支持文生图、文生视频、图生视频、人声生视频和动作生成等10多种视觉创作能力，累计生成3.9亿张图片、7000万个视频。自今年 2 月以来，通义万相已连续开源20多款模型，在开源社区和三方平台的下载量已超3000万，是开源社区最受欢迎的视频生成模型之一。