hunyuan 混元学习

使用了5个subset,也是用了text-image和text-video进行训练的

也是进行了复杂的视频选择。同movie gen.

也进行了模型切断,用拉普拉斯算子找到最清晰的一帧作为训练的起始

训练了不同的模型去选择数据,比如用Dover去选择美观度比较好的数据,用其他模型去选择清晰度高的模型等。判断motion大小(比如静止的)把不合适的视频去掉。用OCR模型把带有很多字的视频拿掉。用YOLOX把一些敏感信息拿掉。虽然拿掉了很多数据,但是数据多样性高也好,所以用个小模型去测试那个去掉视频的操作好。图4

最后的finetune数据又是人工标注,大概一百万。用的JSON保存信息

加强版的dense description

background\style等关键词,还用了dropout设置多样性更多的captions使得描述格式不会太固定。

数据对于machine learning很重要

相关推荐
贺函不是涵44 分钟前
【沉浸式求职学习day47】【JSP详解】
java·开发语言·学习
hmbbcsm1 小时前
reserve学习笔记(花指令)
笔记·学习
阿图灵2 小时前
文章记单词 | 第102篇(六级)
学习·学习方法
一年春又来3 小时前
AI-02a5a8.神经网络-与学习相关的技巧-超参数的验证
人工智能·神经网络·学习
MingYue_SSS3 小时前
一些较好的学习方法
经验分享·笔记·嵌入式硬件·学习·学习方法
zhangrelay3 小时前
ROS云课-一键配置-250523无错版
学习
胡耀超3 小时前
从逻辑视角学习信息论:概念框架与实践指南
学习·安全·网络安全·信息与通信·数据科学·信息论
qq_393828223 小时前
Excel多合一文件合并工具
学习·excel·软件需求
茶茶敲代码4 小时前
前端vscode学习
学习
Bonnie_12155 小时前
02-jenkins学习之旅-基础配置
运维·学习·jenkins