REAL-FAKE: EFFECTIVE TRAINING DATA SYNTHESISTHROUGH DISTRIBUTION MATCHING 论文学习

这篇文章主要讲的是生成数据在模型训练中的作用,对于接下来要研究的生成多模态数据具有重要的作用。

文章摘要首先讲生成数据很重要,但在训练高级的模型的时候效果不好。论文主要研究的是这背后的原理并且证明了生成数据的作用。

介绍部分,文章提到现在有很多工作都是用生成的文本,图像来训练,但使用假数据来训练的模型性能貌似和真数据来的有很大差距。文章认为这种差距是由生成图像与真实数据分布不一样导致的。文章还搞了个图表示这种分布:

但这个分布的衡量标准是什么?没太看懂。

网上的定义:数据分布是统计学中的重要概念,用于描述数据点在不同取值下的分布情况

但放在这里......不太懂

先前的工作大多是启发式的,本文要从理论框架的角度分析这个问题。总共就做两件事:1)目标数据和合成数据之间的分布差异,以及(2)训练集的基数

我对论文的理解遇到困难了......我应该先学习diffusion

相关推荐
guts350几秒前
使用python里的OpenCV包做简单的车道线检测
人工智能·python·opencv
金智维科技官方2 分钟前
APA智能流程自动化是什么?
大数据·人工智能·ai·智能体·apa
leaves falling4 分钟前
数据结构-堆学习
java·数据结构·学习
智慧化智能化数字化方案5 分钟前
可信数据空间——详解2025 华为AI可信数据空间白皮书【附全文阅读】
人工智能·可信数据空间·华为ai可信数据空间白皮书
峥嵘life6 分钟前
Android16 EDLA【CTS】CtsConnectivityMultiDevicesTestCases存在fail项
android·学习
两只羊11 分钟前
折腾 OpenClaw:从零开始在 Ubuntu 上部署并搞定局域网访问
人工智能
大傻^15 分钟前
SpringAI2.0 Null Safety 实战:JSpecify 注解体系与 Kotlin 互操作
android·开发语言·人工智能·kotlin·springai
蓝队云计算15 分钟前
蓝队云揭秘:如何利用云服务器高效养殖龙虾OpenClaw?
运维·服务器·人工智能·云服务器·openclaw
楼田莉子17 分钟前
MySQL数据库:表及其表相关的操作
数据库·学习·mysql
JicasdC123asd17 分钟前
密集连接瓶颈模块改进YOLOv26特征复用与梯度流动双重优化
人工智能·yolo·目标跟踪