REAL-FAKE: EFFECTIVE TRAINING DATA SYNTHESISTHROUGH DISTRIBUTION MATCHING 论文学习

这篇文章主要讲的是生成数据在模型训练中的作用,对于接下来要研究的生成多模态数据具有重要的作用。

文章摘要首先讲生成数据很重要,但在训练高级的模型的时候效果不好。论文主要研究的是这背后的原理并且证明了生成数据的作用。

介绍部分,文章提到现在有很多工作都是用生成的文本,图像来训练,但使用假数据来训练的模型性能貌似和真数据来的有很大差距。文章认为这种差距是由生成图像与真实数据分布不一样导致的。文章还搞了个图表示这种分布:

但这个分布的衡量标准是什么?没太看懂。

网上的定义:数据分布是统计学中的重要概念,用于描述数据点在不同取值下的分布情况

但放在这里......不太懂

先前的工作大多是启发式的,本文要从理论框架的角度分析这个问题。总共就做两件事:1)目标数据和合成数据之间的分布差异,以及(2)训练集的基数

我对论文的理解遇到困难了......我应该先学习diffusion

相关推荐
陈天伟教授7 小时前
图解人工智能(28)循环神经网络是如何实现记忆功能
人工智能·rnn·深度学习
老吴的商业笔记7 小时前
GEO 智能营销系统深度评测:从源码部署到 AI 搜索实效验证
人工智能
PhotonixBay7 小时前
金属增材制造表面测量:共聚焦显微镜参数优化实践
人工智能·测试工具·制造
码农阿强7 小时前
MiniMax speech-2.8-hd 技术详解与API接入实战
人工智能·ai·aigc
larance7 小时前
[菜鸟教程] 机器学习教程第五课-机器学习如何工作
人工智能·机器学习
云端行者7 小时前
LM Studio 0.4.13 踩坑实录:解决 JS Sandbox 的 Deno 缺失与网络权限问题
人工智能
一切皆是因缘际会7 小时前
依托记忆结构心智体系,AI 自主意识进化路径
大数据·人工智能·安全·搜索引擎·ai
沪漂阿龙7 小时前
面试题详解:大模型设计沙箱全攻略——LLM Sandbox、Agent 工具执行、代码沙箱、安全隔离、权限控制与工程落地
网络·数据库·人工智能·安全
AI医影跨模态组学7 小时前
NPJ Precis Oncol(IF=8)南京医科大学第一附属医院放射肿瘤科等团队:整合MRI与ECV的放射组学模型提高高级别胶质瘤进展预测准确性
人工智能·深度学习·论文·医学影像·影像组学·医学科研