清华联合字节推出 HuMo,实现三模态协同生成人物视频

如今文本生成图像与视频已不再是天方夜谭。然而,当大多数模型仍在为生成画面的清晰度与稳定性而努力时,一个更为棘手的挑战浮出水面:如何精准、一致地生成以「人物」为核心的高质量视频?对此,清华大学与字节跳动联合推出了一个名为 HuMo 的统一 HCVG 框架。它专为「创造人」而生,旨在攻克这一核心难题。

HuMo-17B 真正实现了「三位一体」生成。它不再仅仅依赖文本指令,而是将文本、图像与音频三大模态融为一体,作为驱动视频生成的源泉。这意味着,你可以上传一张人物照片,搭配一段描述动作的文本和一首背景音乐,模型便能生成一个既保持人物外貌高度一致、动作符合描述,又与音乐节奏同步的连贯视频。

教程链接:https://go.openbayes.com/a7ZXE

使用云平台:OpenBayes

http://openbayes.com/console/signup?r=sony_0m6v

登录 OpenBayes.com,在「公共教程」页面,选择一键部署 「HuMo-17B:三模态协同创作」教程。

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。

文本-图像-音频生成视频(VideoGen from Text-Image-Audio,TIA)

进入 Demo 页面后,在「Generation Mode」中选择「TIA」,然后上传图像,音频并输入文本,点击「Generate Video」生成。

参数说明

  • Height:设置视频的高度。

  • Width:设置视频的宽度。

  • Frames:设置视频的帧数。

  • Text Guidance Scale:文本引导缩放比例,用于控制文本提示对视频生成的影响。

  • Image Guidance Scale:图像引导缩放比例,用于控制图像提示对视频生成的影响。

  • Audio Guidance Scale:音频引导缩放比例,用于控制音频提示对视频生成的影响。

  • Sampling Steps:采样步数,用于控制视频生成的质量和细节。

  • Random Seed:随机种子,用于控制视频生成的随机性。

文本-音频生成视频(VideoGen from Text-Audio,TA)

在「Generation Mode」中选择「TIA」,然后上传音频并输入文本,点击「Generate Video」生成。

相关推荐
zuozewei10 小时前
零基础 | AI应用记忆管理:从短期到长期的完整实践指南
运维·服务器·人工智能
数说星榆18110 小时前
小型工厂工艺流程图制作_在线设计装配/焊接/冲压工艺流程模板
大数据·论文阅读·人工智能·流程图·论文笔记
老蒋每日coding10 小时前
AI Agent 设计模式系列(十九)—— 评估和监控模式
人工智能·设计模式
AI浩10 小时前
用于自动驾驶的ApolloScape数据集
人工智能·机器学习·自动驾驶
weixin_4215850110 小时前
无监督配准
人工智能
救救孩子把10 小时前
56-机器学习与大模型开发数学教程-5-3 最速下降法与动量法(Momentum)
人工智能·机器学习
njsgcs10 小时前
MiniCPM4-0.5B-QAT-Int4-GPTQ-format 小显存llm
linux·人工智能
koo36410 小时前
pytorch深度学习笔记18
pytorch·笔记·深度学习
Paul-LangJun10 小时前
互信息和InfoNCE的关系
人工智能·对比学习·infonce·互信息
lixin55655610 小时前
基于神经网络的音乐生成增强器
java·人工智能·pytorch·python·深度学习·语言模型