独立同分布(i.i.d.,Independent and Identically Distributed)
随机变量序列中每个变量相互独立 且服从同一概率分布。
维度 | 说明 |
---|---|
独立 | 每个样本的取值不影响其他样本。例如,抛硬币10次,第5次结果不影响第6次。 |
同分布 | 所有样本来自同一个概率分布。例如,抛同一枚公平硬币10次,每次正面概率均为0.5。 |
例子
-
抛硬币
连续抛掷同一枚公平硬币10次,每次结果独立且正面概率恒为0.5 → 这是i.i.d.。
-
非i.i.d.的反例
- 非独立:第一次抛硬币的结果决定第二次是否抛硬币(如"正面则停止")。
- 非同分布:前5次用公平硬币,后5次改用正面概率0.8的偏硬币。
扩展
为什么机器学习需要i.i.d.?
- 训练集与测试集需同分布:若训练数据来自"夏季西瓜",测试数据却是"冬季西瓜",模型会失效(分布偏移)。
- 理论保证:泛化误差界(如Hoeffding不等式)的推导依赖i.i.d.假设。
真实数据常违反i.i.d.(如时间序列、用户行为随时间变化),此时需领域自适应 或重加权等技术修正。