AI洞察 | 好酷！国产模型在电影、3D、TTS 领域取得巨大进步！

欢迎关注微信公众号：科技洞察者 📌

近日，中国 AI 大模型领域捷报频传，从电影级 AI 视频创作、沉浸式 3D 世界构建到高表现力对话语音合成，多项国产重磅技术成果相继开源，引领 AI 内容生成新纪元。

阿里通义万相 Wan2.2：开启电影级 AI 视频新篇章

阿里巴巴通义正式开源了新一代电影级 AI 视频生成模型------通义万相 Wan2.2。这款模型首次将 MoE（Mixture of Experts）架构引入视频生成扩散模型，旨在实现电影级的视觉效果，其表现对标 Sora 并超越了前代 Wan2.1。

MoE 架构与技术飞跃

Wan2.2 的核心创新在于其 MoE 架构。它巧妙地将视频生成过程根据信噪比分为高噪声和低噪声阶段，并由不同的"专家"模型协同处理。这一设计不仅有效解决了扩展参数规模时的计算负载问题，更显著降低了验证损失，大幅提升了生成质量。模型训练数据量的大幅增加，配合美学精调阶段，融入了电影工业标准的光影塑造、镜头构图和色彩心理学体系，并通过 RL 微调进一步对齐人类审美偏好。

值得一提的是，Wan2.2 还提供了 5B 版本，通过自研的高压缩比 3D VAE 结构，将显存要求降至 8GB，使得消费级显卡也能以 24fps、720P 的速度快速生成视频，极大降低了用户门槛。

电影级控制与复杂运动能力

Wan2.2 推出了"电影级美学控制系统"，用户只需选择美学关键词，即可对光影氛围、镜头语言和色彩情绪进行精准控制，提供了超过 60 个专业级参数。此外，模型在复杂运动能力方面也实现了质的飞跃，能够细腻表达面部表情、灵巧处理手部动作、实现真实的多人交互，并提高高强度体育运动的稳定性。

这款模型已在通义万相平台、GitHub、HuggingFace 和魔搭社区全面开源，无疑将加速 AI 电影时代的到来，并为创作者提供前所未有的强大工具。

官网：wan.video

GitHub：github.com/Wan-Video/W...

Hugging Face：huggingface.co/Wan-AI

ModelScope：modelscope.cn/organizatio...

腾讯混元 3D 世界模型 1.0：从一句话到整个虚拟世界

腾讯正式发布并全面开源了混元 3D 世界模型 1.0，这标志着 3D 生成技术从"物体级"向"世界级"的里程碑式跨越。该模型是业界首个支持沉浸式漫游、交互与仿真的 3D 世界生成模型。

极速生成与沉浸体验

混元 3D 世界模型能够通过简单的文字描述或单张图片，在数秒内快速生成高精度、风格多样的 360° 沉浸式 3D 场景，将传统数周的工作量大幅缩短。虽然目前 360° 场景主要支持环绕式浏览，但模型已提供可交互的漫游功能，用户可在虚拟世界中自由移动，并通过智能范围判断避免不自然体验，尤其适用于游戏和 VR 应用。

普惠创作与广泛应用

腾讯为用户提供了每日免费生成额度，旨在促进 3D 内容创作的普惠化。该模型基于腾讯自研的生成式 AI 大模型，支持 API 调用，其开源策略在全球开发者社区获得广泛关注。未来，这项技术有望在游戏开发、影视制作、电商广告、虚拟社交、数字孪生等领域掀起新浪潮，真正实现"从一句话到整个世界"的创作愿景。

官网：3d-models.hunyuan.tencent.com/world/

体验地址：3d.hunyuan.tencent.com/sceneTo3D

GitHub：github.com/Tencent-Hun...

Hugging Face：huggingface.co/tencent/Hun...

清华 MOSS-TTSD：AI 对话语音合成的新里程碑

由清华大学语音与语言实验室等机构联合开发并开源的 MOSS-TTSD（Text to Spoken Dialogue）模型，代表了 AI 语音合成技术在对话场景中的重大突破。

核心技术与强大功能

MOSS-TTSD 基于 Qwen3-1.7B-base，利用约 140 万小时的语音数据进行训练，采用离散化语音序列建模，实现了中英双语的高表现力对话语音生成。

其核心创新在于 XY-Tokenizer，它能够高效压缩语音信号，同时保留丰富的语义和声学信息，确保生成语音的自然度和流畅性。

该模型支持最长 960 秒的超长语音生成，并具备零样本双人音色克隆能力，甚至能对笑声等非语言声音进行控制，这对于 AI 播客、有声小说和影视配音等长篇内容创作具有革命性意义。

开源普惠与未来展望

尽管在某些主观听感上可能略逊于商业模型，但 MOSS-TTSD 在中文客观指标上大幅领先其他开源模型，且其权重、推理代码和 API 接口已全面开源，并支持免费商用，为开发者提供了便捷的接入途径。这预示着 AI 语音交互和内容创作领域的智能化进程将进一步加速。

官网：www.open-moss.com/cn/moss-tts...

GitHub：github.com/OpenMOSS/MO...

Hugging Face：huggingface.co/fnlp/MOSS-T...
如果对你有帮助的话，请点赞、分享。关注微信公众号科技洞察者，第一时间获取前沿科技讯息，还有数字人播客、演示视频等丰富内容，我们下期再见。

AI洞察 | 好酷！国产模型在 电影、3D、TTS 领域取得巨大进步！