hunyuan 混元学习

使用了5个subset,也是用了text-image和text-video进行训练的

也是进行了复杂的视频选择。同movie gen.

也进行了模型切断,用拉普拉斯算子找到最清晰的一帧作为训练的起始

训练了不同的模型去选择数据,比如用Dover去选择美观度比较好的数据,用其他模型去选择清晰度高的模型等。判断motion大小(比如静止的)把不合适的视频去掉。用OCR模型把带有很多字的视频拿掉。用YOLOX把一些敏感信息拿掉。虽然拿掉了很多数据,但是数据多样性高也好,所以用个小模型去测试那个去掉视频的操作好。图4

最后的finetune数据又是人工标注,大概一百万。用的JSON保存信息

加强版的dense description

background\style等关键词,还用了dropout设置多样性更多的captions使得描述格式不会太固定。

数据对于machine learning很重要

相关推荐
hu1j1 小时前
[HTB] 靶机学习(十二)Eureka
学习·安全·web安全·网络安全·云原生·eureka
搞机械的假程序猿1 小时前
普中51单片机学习笔记-点亮第一个LED
笔记·学习·51单片机
菜鸟‍1 小时前
【论文学习】基于 Transformer 的图像分割模型
深度学习·学习·transformer
Han.miracle3 小时前
Java的多线程——多线程(3)线程安全
java·开发语言·jvm·学习·安全·线程·多线程
d111111111d3 小时前
STM32外设学习--TIM定时器--输入捕获---测频方法。
stm32·单片机·学习
学习_学习_再学习5 小时前
ffmpeg学习记录
学习·ffmpeg
im_AMBER5 小时前
算法笔记 10
笔记·学习·算法·leetcode
qzhqbb7 小时前
神经网络—— 学习与感知器
神经网络·学习
charlie11451419111 小时前
CSS笔记4:CSS:列表、边框、表格、背景、鼠标与常用长度单位
css·笔记·学习·css3·教程
✎ ﹏梦醒͜ღ҉繁华落℘15 小时前
FreeRTOS学习笔记(应用)-- 各种 信号量的应用场景
笔记·学习