AI洞察 | 好酷!国产模型在 电影、3D、TTS 领域取得巨大进步!

欢迎关注微信公众号:科技洞察者 📌

近日,中国 AI 大模型领域捷报频传,从电影级 AI 视频创作、沉浸式 3D 世界构建到高表现力对话语音合成,多项国产重磅技术成果相继开源,引领 AI 内容生成新纪元。

阿里通义万相 Wan2.2:开启电影级 AI 视频新篇章

阿里巴巴通义正式开源了新一代电影级 AI 视频生成模型------通义万相 Wan2.2。这款模型首次将 MoE(Mixture of Experts)架构引入视频生成扩散模型,旨在实现电影级的视觉效果,其表现对标 Sora 并超越了前代 Wan2.1。

MoE 架构与技术飞跃

Wan2.2 的核心创新在于其 MoE 架构。它巧妙地将视频生成过程根据信噪比分为高噪声和低噪声阶段,并由不同的"专家"模型协同处理。这一设计不仅有效解决了扩展参数规模时的计算负载问题,更显著降低了验证损失,大幅提升了生成质量。模型训练数据量的大幅增加,配合美学精调阶段,融入了电影工业标准的光影塑造、镜头构图和色彩心理学体系,并通过 RL 微调进一步对齐人类审美偏好。

值得一提的是,Wan2.2 还提供了 5B 版本,通过自研的高压缩比 3D VAE 结构,将显存要求降至 8GB,使得消费级显卡也能以 24fps、720P 的速度快速生成视频,极大降低了用户门槛。

电影级控制与复杂运动能力

Wan2.2 推出了"电影级美学控制系统",用户只需选择美学关键词,即可对光影氛围、镜头语言和色彩情绪进行精准控制,提供了超过 60 个专业级参数。此外,模型在复杂运动能力方面也实现了质的飞跃,能够细腻表达面部表情、灵巧处理手部动作、实现真实的多人交互,并提高高强度体育运动的稳定性。

这款模型已在通义万相平台、GitHub、HuggingFace 和魔搭社区全面开源,无疑将加速 AI 电影时代的到来,并为创作者提供前所未有的强大工具。

官网:wan.video

GitHub:github.com/Wan-Video/W...

Hugging Face:huggingface.co/Wan-AI

ModelScope:modelscope.cn/organizatio...

腾讯混元 3D 世界模型 1.0:从一句话到整个虚拟世界

腾讯正式发布并全面开源了混元 3D 世界模型 1.0,这标志着 3D 生成技术从"物体级"向"世界级"的里程碑式跨越。该模型是业界首个支持沉浸式漫游、交互与仿真的 3D 世界生成模型。

极速生成与沉浸体验

混元 3D 世界模型能够通过简单的文字描述或单张图片,在数秒内快速生成高精度、风格多样的 360° 沉浸式 3D 场景,将传统数周的工作量大幅缩短。虽然目前 360° 场景主要支持环绕式浏览,但模型已提供可交互的漫游功能,用户可在虚拟世界中自由移动,并通过智能范围判断避免不自然体验,尤其适用于游戏和 VR 应用。

普惠创作与广泛应用

腾讯为用户提供了每日免费生成额度,旨在促进 3D 内容创作的普惠化。该模型基于腾讯自研的生成式 AI 大模型,支持 API 调用,其开源策略在全球开发者社区获得广泛关注。未来,这项技术有望在游戏开发、影视制作、电商广告、虚拟社交、数字孪生等领域掀起新浪潮,真正实现"从一句话到整个世界"的创作愿景。

官网:3d-models.hunyuan.tencent.com/world/

体验地址:3d.hunyuan.tencent.com/sceneTo3D

GitHub:github.com/Tencent-Hun...

Hugging Face:huggingface.co/tencent/Hun...

清华 MOSS-TTSD:AI 对话语音合成的新里程碑

由清华大学语音与语言实验室等机构联合开发并开源的 MOSS-TTSD(Text to Spoken Dialogue)模型,代表了 AI 语音合成技术在对话场景中的重大突破。

核心技术与强大功能

MOSS-TTSD 基于 Qwen3-1.7B-base,利用约 140 万小时的语音数据进行训练,采用离散化语音序列建模,实现了中英双语的高表现力对话语音生成。

其核心创新在于 XY-Tokenizer,它能够高效压缩语音信号,同时保留丰富的语义和声学信息,确保生成语音的自然度和流畅性。

该模型支持最长 960 秒的超长语音生成,并具备零样本双人音色克隆能力,甚至能对笑声等非语言声音进行控制,这对于 AI 播客、有声小说和影视配音等长篇内容创作具有革命性意义。

开源普惠与未来展望

尽管在某些主观听感上可能略逊于商业模型,但 MOSS-TTSD 在中文客观指标上大幅领先其他开源模型,且其权重、推理代码和 API 接口已全面开源,并支持免费商用,为开发者提供了便捷的接入途径。这预示着 AI 语音交互和内容创作领域的智能化进程将进一步加速。

官网:www.open-moss.com/cn/moss-tts...

GitHub:github.com/OpenMOSS/MO...

Hugging Face:huggingface.co/fnlp/MOSS-T...
如果对你有帮助的话,请点赞、分享。关注微信公众号 科技洞察者,第一时间获取 前沿科技讯息,还有 数字人播客、演示视频 等丰富内容,我们下期再见。

相关推荐
用户5191495848451 小时前
每个JavaScript开发者都应掌握的33个核心概念
人工智能·aigc
云起SAAS3 小时前
族谱家谱抖音快手微信小程序看广告流量主开源
微信小程序·小程序·ai编程·看广告变现轻·族谱家谱
明月(Alioo)3 小时前
用AI帮忙,开发刷题小程序:从零开始,构建微信小程序答题系统
微信小程序·开源·aigc
万少3 小时前
v你真的会记笔记吗?AI的答案可能让你意外
aigc·openai·ai编程
三天哥11 小时前
Sora 2为什么会火?
人工智能·gpt·ai·aigc·agi·ai视频·sora
飞哥数智坊12 小时前
“成章”写作助手开源:中秋赏不成月,那就开源一个 AI 实战项目吧
人工智能·ai编程·trae
Dersun15 小时前
mysql数据库学习之常用函数(五)
数据库·sql·学习·mysql·ai编程
IvanCodes17 小时前
RTX 4090 加速国产 AIGC 视频生成:腾讯混元与阿里千问开源模型
人工智能·开源·aigc·音视频
用户4099322502121 天前
PostgreSQL处理SQL居然像做蛋糕?解析到执行的4步里藏着多少查询优化的小心机?
后端·ai编程·trae
RunningShare1 天前
SpringBoot + MongoDB全栈实战:从架构原理到AI集成
大数据·spring boot·mongodb·架构·ai编程