欢迎关注微信公众号:科技洞察者 📌
近日,中国 AI 大模型领域捷报频传,从电影级 AI 视频创作、沉浸式 3D 世界构建到高表现力对话语音合成,多项国产重磅技术成果相继开源,引领 AI 内容生成新纪元。
阿里通义万相 Wan2.2:开启电影级 AI 视频新篇章
阿里巴巴通义正式开源了新一代电影级 AI 视频生成模型------通义万相 Wan2.2。这款模型首次将 MoE(Mixture of Experts)架构引入视频生成扩散模型,旨在实现电影级的视觉效果,其表现对标 Sora 并超越了前代 Wan2.1。

MoE 架构与技术飞跃
Wan2.2 的核心创新在于其 MoE 架构。它巧妙地将视频生成过程根据信噪比分为高噪声和低噪声阶段,并由不同的"专家"模型协同处理。这一设计不仅有效解决了扩展参数规模时的计算负载问题,更显著降低了验证损失,大幅提升了生成质量。模型训练数据量的大幅增加,配合美学精调阶段,融入了电影工业标准的光影塑造、镜头构图和色彩心理学体系,并通过 RL 微调进一步对齐人类审美偏好。


值得一提的是,Wan2.2 还提供了 5B 版本,通过自研的高压缩比 3D VAE 结构,将显存要求降至 8GB,使得消费级显卡也能以 24fps、720P 的速度快速生成视频,极大降低了用户门槛。

电影级控制与复杂运动能力
Wan2.2 推出了"电影级美学控制系统",用户只需选择美学关键词,即可对光影氛围、镜头语言和色彩情绪进行精准控制,提供了超过 60 个专业级参数。此外,模型在复杂运动能力方面也实现了质的飞跃,能够细腻表达面部表情、灵巧处理手部动作、实现真实的多人交互,并提高高强度体育运动的稳定性。

这款模型已在通义万相平台、GitHub、HuggingFace 和魔搭社区全面开源,无疑将加速 AI 电影时代的到来,并为创作者提供前所未有的强大工具。
官网:wan.video
GitHub:github.com/Wan-Video/W...
Hugging Face:huggingface.co/Wan-AI
ModelScope:modelscope.cn/organizatio...
腾讯混元 3D 世界模型 1.0:从一句话到整个虚拟世界
腾讯正式发布并全面开源了混元 3D 世界模型 1.0,这标志着 3D 生成技术从"物体级"向"世界级"的里程碑式跨越。该模型是业界首个支持沉浸式漫游、交互与仿真的 3D 世界生成模型。

极速生成与沉浸体验
混元 3D 世界模型能够通过简单的文字描述或单张图片,在数秒内快速生成高精度、风格多样的 360° 沉浸式 3D 场景,将传统数周的工作量大幅缩短。虽然目前 360° 场景主要支持环绕式浏览,但模型已提供可交互的漫游功能,用户可在虚拟世界中自由移动,并通过智能范围判断避免不自然体验,尤其适用于游戏和 VR 应用。

普惠创作与广泛应用
腾讯为用户提供了每日免费生成额度,旨在促进 3D 内容创作的普惠化。该模型基于腾讯自研的生成式 AI 大模型,支持 API 调用,其开源策略在全球开发者社区获得广泛关注。未来,这项技术有望在游戏开发、影视制作、电商广告、虚拟社交、数字孪生等领域掀起新浪潮,真正实现"从一句话到整个世界"的创作愿景。
官网:3d-models.hunyuan.tencent.com/world/
体验地址:3d.hunyuan.tencent.com/sceneTo3D
GitHub:github.com/Tencent-Hun...
Hugging Face:huggingface.co/tencent/Hun...
清华 MOSS-TTSD:AI 对话语音合成的新里程碑
由清华大学语音与语言实验室等机构联合开发并开源的 MOSS-TTSD(Text to Spoken Dialogue)模型,代表了 AI 语音合成技术在对话场景中的重大突破。

核心技术与强大功能
MOSS-TTSD 基于 Qwen3-1.7B-base,利用约 140 万小时的语音数据进行训练,采用离散化语音序列建模,实现了中英双语的高表现力对话语音生成。

其核心创新在于 XY-Tokenizer,它能够高效压缩语音信号,同时保留丰富的语义和声学信息,确保生成语音的自然度和流畅性。


该模型支持最长 960 秒的超长语音生成,并具备零样本双人音色克隆能力,甚至能对笑声等非语言声音进行控制,这对于 AI 播客、有声小说和影视配音等长篇内容创作具有革命性意义。


开源普惠与未来展望
尽管在某些主观听感上可能略逊于商业模型,但 MOSS-TTSD 在中文客观指标上大幅领先其他开源模型,且其权重、推理代码和 API 接口已全面开源,并支持免费商用,为开发者提供了便捷的接入途径。这预示着 AI 语音交互和内容创作领域的智能化进程将进一步加速。
官网:www.open-moss.com/cn/moss-tts...
GitHub:github.com/OpenMOSS/MO...
Hugging Face:huggingface.co/fnlp/MOSS-T...
如果对你有帮助的话,请点赞、分享。关注微信公众号 科技洞察者,第一时间获取 前沿科技讯息,还有 数字人播客、演示视频 等丰富内容,我们下期再见。