清华联合字节推出 HuMo，实现三模态协同生成人物视频

如今文本生成图像与视频已不再是天方夜谭。然而，当大多数模型仍在为生成画面的清晰度与稳定性而努力时，一个更为棘手的挑战浮出水面：如何精准、一致地生成以「人物」为核心的高质量视频？对此，清华大学与字节跳动联合推出了一个名为 HuMo 的统一 HCVG 框架。它专为「创造人」而生，旨在攻克这一核心难题。

HuMo-17B 真正实现了「三位一体」生成。它不再仅仅依赖文本指令，而是将文本、图像与音频三大模态融为一体，作为驱动视频生成的源泉。这意味着，你可以上传一张人物照片，搭配一段描述动作的文本和一首背景音乐，模型便能生成一个既保持人物外貌高度一致、动作符合描述，又与音乐节奏同步的连贯视频。

使用云平台：OpenBayes

http://openbayes.com/console/signup?r=sony_0m6v

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本，不需要再进行手动选择。点击「继续执行」，等待分配资源。

待系统分配好资源，当状态变为「运行中」后，点击「API 地址」边上的跳转箭头，即可跳转至 Demo 页面。

进入 Demo 页面后，在「Generation Mode」中选择「TIA」，然后上传图像，音频并输入文本，点击「Generate Video」生成。

参数说明

在「Generation Mode」中选择「TIA」，然后上传音频并输入文本，点击「Generate Video」生成。