多轨迹建模方法的介绍与实操-基于R语言

本文介绍了多轨迹建模方法（Group-Based Multivariate Trajectory Modeling），这是一种扩展了单指标组基轨迹建模的技术，用于分析多个疾病生物标志物或临床重要因素的联合轨迹，以更好地理解和追踪疾病进程、行为或健康状态的变化。多轨迹建模利用有限混合模型，识别出遵循相似多指标轨迹的个体群体。这种方法克服了传统统计分析在处理多变量纵向数据时的局限性，允许同时分析多个相关指标。通过两个示例展示了该模型的实施过程和应用。

1. 引言

现有统计方法通常未能充分利用多变量纵向数据中的信息来研究疾病进展的多个指标。
多轨迹建模旨在通过同时分析多个指标的轨迹，提高对疾病发展等的理解。

2. 多轨迹建模方法

基于有限混合模型，多轨迹建模扩展了单指标的组基轨迹建模。
每个轨迹群由多个指标的轨迹定义，而不是仅一个指标。

3. 确定组数

选择合适的组数是关键，需要结合统计标准和实质性的解释。

不能仅依赖于机械的拟合统计量，模型选择应考虑其实质性意义。

【确定多轨迹模型中的最佳组数通常涉及统计标准，但同时也需要考虑其他因素。这些因素可能包括临床相关性、模型的解释能力和复杂性之间的平衡。选择最佳组数时，需要确保模型能够清晰、简洁地代表临床相关的轨迹模式，同时避免过度拟合数据，即创建过多的组以至于每个组包含的数据量过少或模式过于特定。此外，模型的实用性也是一个重要因素，理想的模型应该易于理解和应用到实际的临床决策中。】

4. 实现方法

4.1 准备阶段

R 复制代码

install.packages("gbmt")
library(gbmt)
data(agrisus2)

4.2 分析阶段

进行gbmt分析，以每个国家为一个个体，ng=创建的组数,d=表示组轨迹的多项式次数。默认值为 2,scaling=归一化方法，应表示为：0（无归一化）、1（居中）、2（标准化）、3（与平均值的比率）和4（与平均值的对数比率）。默认值为 2（标准化）

R 复制代码

varNames <- c("TFP_2005", "NetCapital_GVA", "Income_rur", "Unempl_rur", "GHG_UAA", "GNB_N_UAA") # 定义6 个自变量
m3_2 <- gbmt(x.names=varNames, unit="Country", time="Year", d=2, ng=3, data=agrisus2, scaling=4)   # 分为3组
m3_2$assign.list
m3_2$fitted
summary(m3_2)

R 复制代码

m4_2 <- gbmt(x.names=varNames, unit="Country", time="Year", d=2, ng=4, data=agrisus2, scaling=4) # 分为4组

rbind(m3_2$ic, m4_2$ic)

选择多少组别数量？

通常在使用`gbmt`这样的方法时，研究人员可能会基于理论背景、数据的聚类结构或者通过比较不同组数（ng）的模型来决定。例如，他们可能从一个较小的组别数量开始（如3个组），然后逐渐增加组别，直到模型的复杂性与数据的解释能力达到平衡，或者模型的信息准则（如IC值）不再有显著改善。

在示例代码中，模型`m3_2`使用了3个组，而`m4_2`尝试了4个组，这表明可以通过比较不同组数模型的拟合情况来选择合适的组别数量。