**用途:**是处理成分数据的核心预处理方法,核心目标是解决成分数据的和为常数100% , 导致的维度冗余,非线性相关问题。使得数据满足传统的统计/建模方法;
**举例子:**食品比例中 面粉(50%),糖(30%),水(20%)
**原理:**这类数据存在 "闭合效应(Closure Effect)":若一个成分的比例增加,至少有一个其他成分的比例会减少(因为总和固定),导致:
- 变量间存在强线性相关性(维度冗余,n 个成分仅 n-1 个独立信息);
- 传统统计方法(如直接对比例做回归)会得出错误结论(如误以为 "面粉占比与食品口感正相关",实际可能是水占比间接影响)。
使用要求:所有含量大于0,总和为1;将原来的成分值进行计算然后替换,使用替换后的新值
转换后 将原来的比例相关性 转换为 线性相关性;
CLR 是成分数据的 "翻译器":将 "总和固定、相互制约" 的比例数据,翻译成 "无约束、可线性建模" 的新变量,让传统数学模型能正确分析 "各成分对目标的真实影响";
......待续......