在学术论文的数据分析部分,正确选择统计方法是保证结论可靠性的关键。以下按常见研究目的和数据特征,系统梳理不同情况下的分析方法选择指南。

一、基础原则:先判断两个核心问题
-
变量类型 :因变量/结局变量是连续型 (如血压、得分)、有序分类 (如疗效等级:无效/好转/显效)、无序分类 (如血型、性别)、还是生存时间(含删失)?
-
研究设计 :组间比较是独立样本 (不同个体)还是配对/重复测量 (同个体前后或匹配)?是否存在混杂因素需要调整?
二、单变量描述性统计(基线资料)
| 变量类型 | 描述方法 | 适用说明 |
|---|---|---|
| 连续变量(正态分布) | 均数 ± 标准差 (Mean ± SD) | Shapiro-Wilk检验P>0.05可视为正态 |
| 连续变量(偏态分布) | 中位数 (四分位间距) [M (Q1, Q3)] | 如住院天数、费用、检验指标 |
| 分类变量(二分类/无序多分类) | 频数 (百分比) [n (%)] | 性别、并发症有无等 |
| 有序分类变量 | 频数 (百分比) [n (%)] 或中位数 | 疼痛程度、教育程度 |
三、组间比较(两组或多组)
3.1 两组独立样本比较
| 结局变量类型 | 满足参数条件 | 不满足参数条件(或小样本、偏态) |
|---|---|---|
| 连续变量 | 独立样本t检验(需方差齐) | Mann-Whitney U检验(也称Wilcoxon秩和检验) |
| 有序分类变量 | --- | Mann-Whitney U检验 或 Wilcoxon秩和检验 |
| 二分类/无序分类 | --- | Pearson卡方检验(或Fisher精确检验) |
参数条件 :两组均来自正态分布总体(或大样本≥30且中度偏态)+ 方差齐性(可用Levene检验)。若方差不齐,使用Welch t检验(不假定齐方差)。
3.2 多组独立样本比较(≥3组)
| 结局变量类型 | 满足参数条件 | 不满足参数条件 |
|---|---|---|
| 连续变量 | 单因素方差分析 (One-way ANOVA) + 事后检验(如Tukey HSD) | Kruskal-Wallis H检验 + 事后两两比较(Dunn检验) |
| 有序分类 | --- | Kruskal-Wallis H检验 |
| 无序分类 | --- | 多组卡方检验(R×C表),若有小期望频数用Fisher确切概率 |
3.3 配对/重复测量设计(同个体前后或匹配对)
| 设计类型 | 参数方法 | 非参数方法 |
|---|---|---|
| 两组配对(前后对比) | 配对t检验 | Wilcoxon符号秩检验 |
| 多组重复测量(≥3个时间点) | 重复测量方差分析 | Friedman检验 |
| 配对分类变量(如前后是否有效) | McNemar检验(2×2表) | --- |
四、关联性/相关分析
| 变量类型 | 方法 | 条件说明 |
|---|---|---|
| 两个连续变量(均正态) | Pearson相关系数 | 线性关系,无异常值 |
| 两个连续变量(非正态或非线性) | Spearman秩相关系数 | 适用于单调关系,对异常值稳健 |
| 一个连续 + 一个二分类 | 点二列相关系数 或直接用t检验 | t检验更常见 |
| 两个有序分类变量 | Spearman秩相关系数 或 Kendall tau | 也可用卡方检验趋势 |
| 两个无序分类变量 | Cramer's V(基于卡方) | 用列联表卡方检验 |
五、回归分析(控制混杂/预测)
| 结局变量类型 | 常用回归方法 | 说明 |
|---|---|---|
| 连续变量 | 线性回归 (Linear regression) | 需满足残差正态、独立、方差齐 |
| 二分类(0/1) | Logistic回归 (Binary logistic) | 报告OR值及95%CI |
| 无序多分类 | 多项Logistic回归 | --- |
| 有序分类 | 有序Logistic回归 | 需比例优势假设 |
| 生存时间(含删失) | Cox比例风险回归 | 报告HR值 |
| 计数数据(如住院次数) | Poisson回归 或 负二项回归 | --- |
论文中常用:多因素回归校正混杂,或倾向性评分匹配后的回归。
六、特殊设计常用方法
| 研究场景 | 推荐方法 |
|---|---|
| 诊断试验(金标准存在) | 灵敏度、特异度、ROC曲线 + 曲线下面积(AUC) |
| 一致性评价(两种测量方法) | Kappa系数(分类)、组内相关系数ICC(连续) |
| 交互作用/亚组分析 | 回归模型中纳入乘积项,或分层分析 + 交互检验 |
| 时间序列/重复测量 | 广义估计方程(GEE)、线性混合模型(LMM) |
| 缺失数据处理 | 多重插补、末次观测值结转(谨慎) |
七、常见误区提醒
-
误用t检验比较三组 → 应使用ANOVA,否则增加Ⅰ类错误。
-
不检验正态性和方差齐性就直接用参数检验 → 应先用Shapiro-Wilk、Levene检验,或直接使用非参数方法。
-
分类变量卡方检验忽略期望频数 → 若≥20%格子期望频数<5或任一格子<1,应使用Fisher精确检验。
-
多个主要结局未校正多重比较 → 可用Bonferroni、FDR等校正。
-
把重复测量数据当作独立样本分析 → 应使用配对检验或重复测量模型。