【13】回归分析

在Excel中，回归分析是一种非常常用的数据分析方法，用于预测因变量（响应变量）与一个或多个自变量（预测变量）之间的关系。通过Excel的内置功能（如"数据分析工具库"中的回归分析工具），用户可以快速构建回归模型。

1.线性回归

用例：通过Excel进行简单线性回归分析

假设你是一位数据分析员，负责分析公司广告支出和销售额之间的关系。你有一组数据，记录了过去几个月的广告支出（自变量）和对应的销售额（因变量），你的目标是通过回归分析找出两者之间的关系，并预测未来的销售额。

数据示例：

月份	广告支出（千元）	销售额（万元）
1	5	10
2	7	15
3	8	18
4	9	22
5	11	26
6	13	30

步骤1：准备数据

在Excel表格中输入上面的数据，并确保广告支出是自变量（X），销售额是因变量（Y）。

步骤2：加载"数据分析工具库"

点击"数据"选项卡。
如果"数据分析"选项不可见，点击"Excel选项" -> "加载项" -> "Excel加载项"，勾选"分析工具库"，然后点击"确定"。
"数据分析"选项会出现在"数据"选项卡的最右边。

步骤3：执行回归分析

点击"数据分析"按钮，在弹出的窗口中选择"回归"。
在"输入Y区域"中，选择销售额数据（因变量）。
在"输入X区域"中，选择广告支出数据（自变量）。
勾选"标签"选项，如果你在选择区域时包含了列标题（如"广告支出"和"销售额"）。
选择输出区域，指定回归分析结果将显示的位置，或选择"新工作表"创建一个新工作表来显示结果。
点击"确定"以运行回归分析。

步骤4：查看回归分析结果

Excel将生成一系列统计结果，主要包括以下几个部分：

回归系数（Coefficients） ：
- 截距（Intercept）：该值表示回归线与Y轴的交点，也即广告支出为0时的预测销售额。
- 广告支出的系数：该值表示广告支出每增加一个单位时，销售额的变化量。
R平方（R-squared） ：
- R²值反映模型的拟合优度，表示自变量解释了多少因变量的方差。值越接近1，说明模型的拟合效果越好。
显著性检验（P-value） ：
- P值用于检验回归系数是否显著。如果P值小于显著性水平（通常是0.05），则自变量对因变量有显著影响。

示例结果（假设输出如下）：

截距（Intercept） = 3
广告支出系数（广告支出） = 2
R² = 0.96
P值 = 0.001

步骤5：解释结果

回归方程：根据回归系数，回归方程为：

销售额 = 3 + 2 × 广告支出销售额 = 3 + 2 \times 广告支出销售额=3+2×广告支出

这意味着，当广告支出为0时，预计销售额为3万元；广告支出每增加1千元，销售额预计增加2万元。

模型拟合度：R²值为0.96，表明模型能够解释96%的销售额变动，这表明广告支出对销售额的影响非常显著。
显著性检验：P值为0.001，远小于0.05，说明广告支出对销售额的影响在统计上是显著的。

步骤6：预测

使用得到的回归方程，你可以预测在未来的广告支出情况下的销售额。例如：

如果广告支出为12千元，则预计销售额为：销售额=3+2×12=27万元

其他

除了简单线性回归，Excel还支持：

多元回归：可以添加多个自变量，分析多个因素对因变量的影响。
非线性回归 ：虽然Excel的默认回归工具支持线性模型，但可以通过规划求解器或其他插件实现非线性回归。

2.解读回归分析结果

在Excel中进行回归分析后，会生成一系列的统计结果。这些结果包含多个指标，用来衡量回归模型的性能、变量之间的关系以及模型的显著性。以下是对回归分析结果的详细解读，包括如何理解和应用这些指标：

回归方程（Regression Equation）

回归分析的主要结果是回归方程，它描述了自变量（X）和因变量（Y）之间的关系。回归方程的一般形式为：

Y = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β n X n Y Y=\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_nY Y=β0+β1X1+β2X2+⋯+βnXnY

Y：因变量（响应变量）
X：自变量（预测变量）
β0：截距（常数项），当所有自变量为0时，Y的预估值。
β1, β2, ..., βn：回归系数，代表每个自变量对因变量的影响。

如果是简单线性回归（一个自变量），方程为：

Y = β 0 + β 1 X 1 Y= \beta_0 + \beta_1 X_1 Y=β0+β1X1

通过这个方程，可以预测自变量变化时因变量的变化。

R平方值（R-squared）

R²（决定系数）是回归模型的一个关键指标，用于衡量模型的拟合优度，反映自变量对因变量的解释能力：

R 2 = 1 − ∑ ( Y i − Y i ^ ) 2 ∑ ( Y i − Y ˉ ) 2 R^2= 1 - \frac{\sum{(Y_i - \hat{Y_i})^2}}{\sum{(Y_i - \bar{Y})^2}} R2=1−∑(Yi−Yˉ)2∑(Yi−Yi^)2

R²的范围：0 ≤ R² ≤ 1。
R²值越接近1：说明模型拟合效果越好，自变量解释了大部分因变量的变异。
R²值接近0：说明自变量对因变量的解释能力很弱，模型效果较差。

示例解读：如果R²=0.85，表示模型解释了85%的因变量变化。这意味着自变量对因变量有很大的解释力。

调整后的R平方（Adjusted R-squared）

调整后的R²值是对R²的修正，它考虑了自变量的数量，因此更适合用于多元回归模型。它的公式是：

Adjusted R 2 = 1 − ( ( 1 − R 2 ) ( n − 1 ) n − p − 1 ) \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - p - 1} \right) Adjusted R2=1−(n−p−1(1−R2)(n−1))

n：样本量
p：自变量的数量

调整后的R²可以防止随着自变量增加，R²值虚高的现象。通常，调整后的R²值略低于R²，但更具解释力。

回归系数（Coefficients）

回归系数显示每个自变量对因变量的影响：

截距项（Intercept, β0）：当所有自变量为0时，因变量的预估值。
自变量的回归系数（β1, β2, ..., βn）：每个自变量的单位变化对因变量的影响。系数的正负号表示自变量与因变量的正相关或负相关关系。

示例解读：假设广告支出的系数为2，表示广告支出每增加1千元，销售额将增加2万元。

P值（P-value）

P值用于检验回归系数是否显著。它衡量回归系数是否在统计上显著不同于零，通常结合显著性水平（α，通常为0.05）来解释。

P < 0.05：回归系数在95%的置信水平上显著，意味着自变量对因变量有显著影响。
P ≥ 0.05：回归系数在统计上不显著，意味着自变量可能对因变量没有显著影响。

示例解读：假设广告支出的P值为0.001，表示在统计上广告支出显著影响销售额。

标准误差（Standard Error）

标准误差衡量回归系数的精度，表示系数的估计值可能会有多大波动。标准误差越小，回归系数的估计越精确。

标准误差小：模型更稳定，回归系数估计值的可信度更高。
标准误差大：表明回归系数的估计可能较不可靠，需谨慎解释。

F检验（F-test）

F检验用于检验回归模型的整体显著性，测试自变量是否共同对因变量有显著影响。

F值越大：说明模型具有更好的拟合效果，至少有一个自变量对因变量有显著影响。
P值（与F值相关）：如果P < 0.05，说明整体模型在统计上是显著的。

示例解读：假设F值为20，P值为0.002，表示整体模型显著，自变量集对因变量有显著影响。

回归残差（Residuals）

残差是实际值与回归模型预测值之间的差异。回归分析中的残差分析有助于检查模型的适用性和潜在问题：

正态分布：如果残差呈正态分布，说明模型适合数据。
残差图：用于检查模型的偏差或潜在的异常值。如果残差无明显模式且随机分布，表明模型合理。

回归分析结果的综合解读示例

假设你进行了广告支出与销售额的线性回归分析，结果如下：

回归方程：销售额 = 3 + 2 × 广告支出
R² = 0.85：广告支出解释了85%的销售额变动，说明模型拟合效果好。
调整后的R² = 0.83：考虑了样本量和自变量个数，模型的解释力依然很高。
P值 = 0.001（广告支出系数）：广告支出对销售额有显著影响，显著性水平为95%。
标准误差 = 0.5：回归系数的估计较为精确，模型稳定。
F值 = 20，P值 = 0.002：整体模型显著，自变量对因变量有显著影响。

基于这些结果，你可以得出以下结论：

广告支出对销售额有显著正向影响，支出增加会带来销售额的增长。
模型的拟合度较高，能够很好地解释销售额的变动。
回归系数的估计是稳定的，模型整体显著，值得信赖。

通过这些结果，可以进一步使用模型进行预测、优化广告支出等决策。

总结

Excel的回归分析工具对于执行基础的回归分析非常方便，尤其适用于快速的数据建模和预测。尽管它不如专业统计软件（如R或Python）强大，但对于简单的分析场景，它是一个高效且易用的工具。

【13】 回归分析

1.线性回归

用例：通过Excel进行简单线性回归分析

其他

2.解读回归分析结果

回归分析结果的综合解读示例

总结

【13】回归分析