hunyuan 混元学习

使用了5个subset,也是用了text-image和text-video进行训练的

也是进行了复杂的视频选择。同movie gen.

也进行了模型切断,用拉普拉斯算子找到最清晰的一帧作为训练的起始

训练了不同的模型去选择数据,比如用Dover去选择美观度比较好的数据,用其他模型去选择清晰度高的模型等。判断motion大小(比如静止的)把不合适的视频去掉。用OCR模型把带有很多字的视频拿掉。用YOLOX把一些敏感信息拿掉。虽然拿掉了很多数据,但是数据多样性高也好,所以用个小模型去测试那个去掉视频的操作好。图4

最后的finetune数据又是人工标注,大概一百万。用的JSON保存信息

加强版的dense description

background\style等关键词,还用了dropout设置多样性更多的captions使得描述格式不会太固定。

数据对于machine learning很重要

相关推荐
默默开发33 分钟前
完整版:本地电脑 + WiFi 搭建 AI 自动炒股 + 自我学习系统
人工智能·学习·电脑
for_ever_love__35 分钟前
Objective-C学习 NSSet 和 NSMutableSet 功能详解
开发语言·学习·ios·objective-c
盐水冰9 小时前
【烘焙坊项目】后端搭建(12) - 订单状态定时处理,来单提醒和顾客催单
java·后端·学习
Hello小赵9 小时前
视频压缩编码学习(一)—— 基础知识大集合
学习
似水明俊德10 小时前
02-C#.Net-反射-学习笔记
开发语言·笔记·学习·c#·.net
adore.96810 小时前
3.18 复试学习
学习
留白_11 小时前
MySQL学习(9)——索引
学习
请你喝好果汁64111 小时前
生信学习笔记:ArchR 处理小麦单细胞 ATAC-seq 中的细胞数差异与 Embedding 报错调试
学习
jinanwuhuaguo12 小时前
OpenClaw、飞书、Claude Code、Codex:四维AI生态体系的深度解构与颗粒化对比分析
大数据·人工智能·学习·飞书·openclaw
萨文 摩尔杰12 小时前
GPS原理学习
学习·fpga开发