清华联合字节推出 HuMo,实现三模态协同生成人物视频

如今文本生成图像与视频已不再是天方夜谭。然而,当大多数模型仍在为生成画面的清晰度与稳定性而努力时,一个更为棘手的挑战浮出水面:如何精准、一致地生成以「人物」为核心的高质量视频?对此,清华大学与字节跳动联合推出了一个名为 HuMo 的统一 HCVG 框架。它专为「创造人」而生,旨在攻克这一核心难题。

HuMo-17B 真正实现了「三位一体」生成。它不再仅仅依赖文本指令,而是将文本、图像与音频三大模态融为一体,作为驱动视频生成的源泉。这意味着,你可以上传一张人物照片,搭配一段描述动作的文本和一首背景音乐,模型便能生成一个既保持人物外貌高度一致、动作符合描述,又与音乐节奏同步的连贯视频。

教程链接:https://go.openbayes.com/a7ZXE

使用云平台:OpenBayes

http://openbayes.com/console/signup?r=sony_0m6v

登录 OpenBayes.com,在「公共教程」页面,选择一键部署 「HuMo-17B:三模态协同创作」教程。

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。

文本-图像-音频生成视频(VideoGen from Text-Image-Audio,TIA)

进入 Demo 页面后,在「Generation Mode」中选择「TIA」,然后上传图像,音频并输入文本,点击「Generate Video」生成。

参数说明

  • Height:设置视频的高度。

  • Width:设置视频的宽度。

  • Frames:设置视频的帧数。

  • Text Guidance Scale:文本引导缩放比例,用于控制文本提示对视频生成的影响。

  • Image Guidance Scale:图像引导缩放比例,用于控制图像提示对视频生成的影响。

  • Audio Guidance Scale:音频引导缩放比例,用于控制音频提示对视频生成的影响。

  • Sampling Steps:采样步数,用于控制视频生成的质量和细节。

  • Random Seed:随机种子,用于控制视频生成的随机性。

文本-音频生成视频(VideoGen from Text-Audio,TA)

在「Generation Mode」中选择「TIA」,然后上传音频并输入文本,点击「Generate Video」生成。

相关推荐
出门吃三碗饭4 小时前
如何在LLM大语言模型上微调来优化数学推理能力?
android·人工智能·语言模型
Q2706810204 小时前
如何才能提升视频的「听觉质感」
音视频
RAG专家6 小时前
【Mixture-of-RAG】将文本和表格与大型语言模型相结合
人工智能·语言模型·rag·检索增强生成
星期天要睡觉9 小时前
自然语言处理(NLP)——自然语言处理原理、发展历程、核心技术
人工智能·自然语言处理
低音钢琴10 小时前
【人工智能系列:机器学习学习和进阶01】机器学习初学者指南:理解核心算法与应用
人工智能·算法·机器学习
大千AI助手11 小时前
Hoeffding树:数据流挖掘中的高效分类算法详解
人工智能·机器学习·分类·数据挖掘·流数据··hoeffding树
新知图书11 小时前
大模型微调定义与分类
人工智能·大模型应用开发·大模型应用
山烛11 小时前
一文读懂YOLOv4:目标检测领域的技术融合与性能突破
人工智能·yolo·目标检测·计算机视觉·yolov4
大千AI助手11 小时前
独热编码:分类数据处理的基石技术
人工智能·机器学习·分类·数据挖掘·特征工程·one-hot·独热编码