hunyuan 混元学习

使用了5个subset,也是用了text-image和text-video进行训练的

也是进行了复杂的视频选择。同movie gen.

也进行了模型切断,用拉普拉斯算子找到最清晰的一帧作为训练的起始

训练了不同的模型去选择数据,比如用Dover去选择美观度比较好的数据,用其他模型去选择清晰度高的模型等。判断motion大小(比如静止的)把不合适的视频去掉。用OCR模型把带有很多字的视频拿掉。用YOLOX把一些敏感信息拿掉。虽然拿掉了很多数据,但是数据多样性高也好,所以用个小模型去测试那个去掉视频的操作好。图4

最后的finetune数据又是人工标注,大概一百万。用的JSON保存信息

加强版的dense description

background\style等关键词,还用了dropout设置多样性更多的captions使得描述格式不会太固定。

数据对于machine learning很重要

相关推荐
sakiko_15 分钟前
UIKit学习笔记4-使用UITableView制作滚动视图
笔记·学习·ios·swift·uikit
晓梦林1 小时前
MAZESEC-X1靶场学习笔记
笔记·学习
我的xiaodoujiao1 小时前
API 接口自动化测试详细图文教程学习系列15--项目实战演练2
python·学习·测试工具·pytest
TImCheng06092 小时前
职场人AI学习周期评估:不同学习路径的时间成本
人工智能·学习
周末也要写八哥2 小时前
C4D/Cinema 4D 2026超详细下载与安装教程(附资源包)
学习·数学建模
xinzheng新政2 小时前
openclaw dashboard报错 internal server error
学习
nashane2 小时前
HarmonyOS 6学习:RichEditor宽度“暴力”计算与富文本截图避坑
学习·harmonyos 5
鹿鸣悠悠3 小时前
【AI学习】全链路、并发、响应时间
学习
PNP Robotics3 小时前
领军军者|PNP机器人包文涛:以具身智能定义机器人的“生命直觉”
人工智能·深度学习·学习·机器学习·机器人
QYQ_11274 小时前
嵌入式学习——字符设备驱动的注册和调用流程
学习