
➢复杂微生物群落解构的核心思想:
不预设任何假定,客观地观测整个微生物组所发生的一系列结构性变化特征,最终识别出与疾病或所关注的表型相关的关键微生物物种、基因和代谢产物。
➢进行微生物群体关联分析,需要结合两大类传统的统计分析方法:1)无监督学习(Unsupervised learning)
2)有监督学习(Supervised learning)➢无监督学习:基于对数据结构的自然分解和观察。
➢主要包括以下三类方法:
1)主成分分析(Principal component analysis,PCA);
2)尺度分析(Multidimensional scaling,MDS);
3)聚类分析(Clustering analysis)二、微生物深度分析方法—关联分析
➢有监督的学习:则是基于某种已知的样品间相互关系,尽可能地按照这种关系提取原始数据中的相关信息。
➢传统的有监督学习方法包括:
•冗余分析(Redundancy analysis,RDA)
•典型相关分析(Canonical analysis)
•偏最小二乘判别分析(Partial least squares discriminant analysis,PLS-DA)•……等约束排序方法(Constrained ordination)。
三、微生物深度分析方法—度结合分析
※考虑微生物群落成员之间的系统发育关系,可以将这些有监督的学习方法与无监督的尺度分析相结合。
即:把通过给定样品间距离进行线性变换分解得到的新变量用于有监督的学习。由此衍生出基于距离的冗余分析(Distance-based redundancy analysis,db-RDA )和主坐标典型相关分析(Canonical analysis of principal coordinates,CAP)
▲通过约束排序,可以对群落样品间的相互关系是否遵循已知样品分布规律做出判断。
四、随机森林算法
➢随机森林(Random Forests)方法找寻关键变量。
➢随机森林:是一种基于决策树(Decision tree)的高效的机器学习算法,可以用于对样品进行分类(Classification),也可以用于回归分析(Regression)。
➢随机森林属于非线性分类器,因此可以挖掘变量之间复杂的非线性的相互依赖关系。
五、ROC 曲线
➢接收者操作特征曲线(Receiver operating characteristic curve,ROC 曲线)也是一种有效的有监督学习方法。
➢ROC 分析属于二元分类算法,用来处理只有两种分类的问题,可以用于选择最佳的判别模型。
六、LEfSe分析
➢LEfSe分析:基于线性判别分析(Linear discriminant analysis,LDA)效应量(Effect size)的分析方法。
➢本质是将线性判别分析与非参数的Kruskal-Wallis 以及Wilcoxon 秩和检验相结合,从而筛选关键的生物标记物(也就是关键群落成员)。
七、基于微生物成员之间的网络推断分析
➢这类分析的根本目的:考察不同群落成员之间的相互作用,通过关联分析的方法,找寻群落成员在不同生境下共同出现(Co-occurrence)或彼此排斥(Co-exclusion)的相互作用模式,从而推断不同微生物类群之间可能的“协作”或“竞争”关系。
八、基于微生物成员之间网络推断分析的延伸和发展
➢发展延伸的领域:肠道元基因组学领域的一系列研究又在此概念的基础上更进一步,发展出了
•“丰度共变化的基因类群”(Co-abundance genegroups,CAGs)
•“元基因组学物种”(Metagenomic species,MGS)
•……等新名词,对于阐释元基因组学的复杂数据提供了全新的思路和办法。
