REAL-FAKE: EFFECTIVE TRAINING DATA SYNTHESISTHROUGH DISTRIBUTION MATCHING 论文学习

这篇文章主要讲的是生成数据在模型训练中的作用,对于接下来要研究的生成多模态数据具有重要的作用。

文章摘要首先讲生成数据很重要,但在训练高级的模型的时候效果不好。论文主要研究的是这背后的原理并且证明了生成数据的作用。

介绍部分,文章提到现在有很多工作都是用生成的文本,图像来训练,但使用假数据来训练的模型性能貌似和真数据来的有很大差距。文章认为这种差距是由生成图像与真实数据分布不一样导致的。文章还搞了个图表示这种分布:

但这个分布的衡量标准是什么?没太看懂。

网上的定义:数据分布是统计学中的重要概念,用于描述数据点在不同取值下的分布情况

但放在这里......不太懂

先前的工作大多是启发式的,本文要从理论框架的角度分析这个问题。总共就做两件事:1)目标数据和合成数据之间的分布差异,以及(2)训练集的基数

我对论文的理解遇到困难了......我应该先学习diffusion

相关推荐
IT_陈寒1 小时前
Vue这个坑我跳了两次,原来问题出在这
前端·人工智能·后端
新新技术迷2 小时前
Node给AI接口做SSE代理与鉴权
人工智能
redreamSo2 小时前
大模型是不是到顶了?瓶颈到底在哪
人工智能·openai
Oo9202 小时前
Tool Use 背后的技术逻辑
人工智能
姗姗来迟了2 小时前
Vue3封装AI流式对话组件踩坑实录
人工智能
码上天下3 小时前
用Pinia管理AI多会话状态
人工智能
用户054324329704 小时前
Next.js接大模型流式SSE实操踩坑
人工智能
Assby4 小时前
从 Function Calling 到 MCP:理解 Agent 工具调用的底层通信机制
人工智能·后端
小星AI4 小时前
Claude Code 从入门到精通,一步到位
人工智能
后端小肥肠4 小时前
Codex + Obsidian 做人生副本视频:输入主题文案,直通剪映草稿
人工智能·aigc·agent