AI洞察 | 混元、昆仑重塑 3D 世界新方向

欢迎关注微信公众号：科技洞察者 📌

近日，AI 技术在内容创作、3D 世界构建以及模型轻量化与移动端部署等多个前沿领域，再次展现出令人瞩目的创新活力。

AI 在内容创作领域的新突破

人工智能正在以前所未有的速度，重塑我们生成和体验数字内容的方式，尤其在游戏和 3D 世界构建方面，涌现出令人振奋的成果。

腾讯混元团队近日推出了创新的 Hunyuan-GameCraft 框架，这是一个基于 HunyuanVideo 底模的高动态交互式游戏视频生成工具。它彻底改变了传统游戏内容生产中动作僵硬、场景静态以及成本高昂的痛点。

通过一张图片、一段文字描述和简单的动作指令，Hunyuan-GameCraft 即可实时生成高清、流畅的动态游戏视频，带来沉浸式体验。

其核心优势在于能够实现自由流畅的动作控制，通过记忆增强的历史帧处理保持角色和环境的长期一致性，并且显著降低制作成本------因为它无需人工建模或渲染，泛化性强，甚至可以在消费级硬件上运行。

这使得过去只有大型工作室才能实现的 3A 级动态内容，现在个人创作者也能触及。无论是游戏开发者用于快速原型设计，视频创作者利用照片生成"异世界探险"短片，还是 3D 设计师将概念图快速转化为动态场景，Hunyuan-GameCraft 都提供了强大的支持。

主页：hunyuan-gamecraft.github.io/

论文：arxiv.org/abs/2506.17...

GitHub：github.com/Tencent-Hun...

HuggingFace：huggingface.co/tencent/Hun...

昆仑万维在北京的 SkyWork AI 技术发布周上，重磅发布了 Matrix-3D，一款全新的 3D 世界生成大模型。

这款模型旨在突破现有 3D 场景生成技术在视角范围和几何一致性上的局限，尤其解决了从单张图像生成完整且可探索 3D 世界的难题。

Matrix-3D 的核心技术在于其"轨迹引导的全景视频生成"和"双路径全景 3D 重建模块"，能够从单张图像生成高质量且轨迹一致的全景视频，并进一步重建出可自由漫游的 3D 空间。

它还构建了包含 11.6 万条带相机轨迹、深度图和文本注释的 Matrix-Pano 数据集，为模型训练提供了坚实基础。用户可以通过文本或图像输入生成 360 度自由环视且内容、几何与色彩高度一致的 3D 场景，并支持精准控制和无限扩展。

Matrix-3D 的出现，预计将在游戏与影视制作、以及具身智能等领域发挥关键作用，加速高质量 3D 内容的生成和模拟环境的构建。

主页：matrix-3d.github.io/

论文：arxiv.org/pdf/2508.08...

GitHub：github.com/SkyworkAI/M...

HuggingFace：huggingface.co/Skywork/Mat...

随着 AI 技术的发展，让 AI 模型更小、更快，并能直接在移动设备上运行，正成为行业的重要趋势。

最新发布的 MiniCPM-V 4.0 视觉模型，以其卓越的性能和对移动设备的优化，吸引了广泛关注。这款 4.1 亿参数的模型，在 OpenCompass 的综合评估中取得了 69.0 的平均分，超越了多款同类模型，在单图、多图及视频理解方面表现出色。

MiniCPM-V 4.0 最大的亮点在于其专为移动设备设计。它能在 iPhone 16 Pro Max 上流畅运行，首次响应延迟不到 2 秒，解码速度超过每秒 17 个 token，且无发热问题，在高并发请求下也能保持优异的吞吐能力。这极大地拓宽了高性能 AI 视觉模型在移动端的应用前景。

此外，它支持 llama.cpp、Ollama、vLLM 等多种平台工具，开发团队还开源了可在 iPhone 和 iPad 上运行的 iOS 应用，并提供了详细的 Cookbook，极大简化了开发者的使用门槛。

GitHub：github.com/OpenBMB/Min...

HuggingFace：huggingface.co/openbmb/Min...

KittenML 团队在 Hugging Face 上发布了开源文本转语音（TTS）模型 Kitten TTS，旨在实现高质量语音合成的同时，保持模型的轻量级和高效能，使其适用于各种设备部署。该模型参数量仅 1500 万，体积小于 25MB，特别适合资源受限的环境。

Kitten TTS 的突出特点是无需 GPU 即可运行，在普通 CPU 设备上也能进行语音合成，这极大地降低了语音合成技术的使用门槛。它提供多种自然流畅的高质量语音选项，并优化了推理速度，可实现实时语音合成。

Kitten TTS 目前处于开发者预览阶段，但其目标是推动文本转语音技术的普及，让更多的开发者和企业能够轻松地在项目中集成语音合成功能。

GitHub：github.com/KittenML/Ki...

HuggingFace：huggingface.co/KittenML/ki...
如果对你有帮助的话，请点赞、分享。关注微信公众号科技洞察者，第一时间获取前沿科技讯息，还有数字人播客、演示视频等丰富内容，我们下期再见。