数据分析：微生物相对丰度数据特点

微生物数据特点

Sparsity
Compositional
Overdispersion

Sparsity

即使在同一环境中，不同样本的微生物出现概率或者丰度都是不一样的，大部分微生物丰度极低。又因为在测序仪的检测极限下，微生物丰度（相对或绝对丰度）为0的概率又极大增加了。除此之外，比对所使用的数据库大小也即是覆盖物种率也会对最终的微生物丰度表达谱有较大的影响。最后我们所获得的微生物丰度谱必然含有大量的零值，它有两种情况，一种是真实的零值，另一种是误差导致的零值。很多算法会针对这两个特性构建不同的处理零值策略。

零值数量的大小构成了微生物丰度谱稀疏性。在某次16s数据的OTU水平中，零值比例高达80%以上。Sparsity属性导致常用的数据分析方法如t-test/wilcox-test假设检验方法均不适合。为了解决sparsity对分析的影响，很多R包的方法如ANCOM的Zero划分，metagenomeSeq的ZIP/ZILN对Zero进行处理，处理后的矩阵再做如CLR等变换，CLR变换又是为了处理微生物数据另一个特点compositional （下一部分讲）。最后转换后的数据会服从常见的分布，也即是可以使用常见的如Wilcox/t-test之类（两分组）的方法做假设检验，需要说明的是ANCOM还会根据物种在样本内的显著性的差异比例区分差异物种，这也是为何ANCOM的稳健性的原因。

Compositional

Compositional的数据特性是服从simplex空间，简而言之是指：某个样本内所有微生物的加和是一个常数（可以是1也可以是10，100）。符合该属性的数据内部元素之间存在着相关关系，即某个元素的比例发生波动，必然引起其他元素比例的波动，但在实际的微生物环境中，这种关联关系可能是不存在的。为了解决compositional的问题，有人提出了使用各种normalization方法（比如上文提到的CLR： X i = l o g ( x i G e a m e t r i c M e a n ( X ) ) X_{i}=log(\frac{x_{i}}{GeametricMean(X)}) Xi=log(GeametricMean(X)xi)，我暂时只熟悉这个方法）。

Compositional数据不服从欧式空间分布，在使用log-ratio transformation后，数据可以一一对应到真实的多维变量的空间，方便后续应用标准分析方法。

Overdispersion

Overdispersion的条件是 V a r i a n c e > > m e a n Variance >> mean Variance>>mean，也就是说数据的方差要远远大于均值。常用的适合count matrix的Poisson分布是无法处理这样的数据的，因此现在很多方法都是用负二项分布去拟合数据。

总结

使用一张自己讲过的PPT总结一下。

参考

Statistical Analysis of Microbiome Data with R