【TJU】应用统计学——第七周作业（4.2 多元线性回归分析、4.3 可化为线性回归的曲线回归、4.4 单因子方差分析）

【TJU】应用统计学------第七周作业（4.2 多元线性回归分析、4.3 可化为线性回归的曲线回归、4.4 单因子方差分析）

一、单选题
二、多选题
- 题目9
三、填空题
- 题目10～11
四、判断题
- 题目12～14
- 题目15～16

一、单选题

题目1～3

1️⃣ 在方差分析中，检验统计量 F F F 是（）

A. 组间平方和除以组内平方和
B. 组间均方除以组内均方 ✅
C. 组间平方和除以总平方和
D. 组间均方除以总均方

在单因素方差分析中，检验统计量采用

F = 组间均方组内均方 F=\frac{\text{组间均方}}{\text{组内均方}} F=组内均方组间均方

其中，组间均方反映不同处理之间的差异，组内均方反映随机误差大小。

如果原假设成立，那么组间差异主要来自随机波动，此时组间均方与组内均方应当比较接近；如果 F F F 值明显偏大，则说明组间差异显著。

因此检验统计量应为 组间均方除以组内均方。

答案：B. 组间均方除以组内均方

2️⃣ 以下哪个不属于方差分析的假定（）

A. 每个总体都服从正态分布
B. 各总体的方差相等
C. 观测值是独立的
D. 各总体的方差等于 0 ✅

方差分析的基本假定通常有三个：

各总体服从正态分布
各总体方差相等
各观测值相互独立

因此 A、B、C 都属于方差分析的常见前提条件。

而"各总体的方差等于 0"显然不是方差分析的假定。若方差等于 0，说明各总体中数据完全没有波动，这与实际统计建模背景不符。

答案：D. 各总体的方差等于 0

3️⃣ 方差分析的主要目的是判断（）

A. 各总体是否存在方差
B. 各样本数据之间是否有显著差异
C. 分类型自变量对数值型因变量的影响是否显著 ✅
D. 分类型因变量对数值型自变量的影响是否显著

方差分析的核心思想，是研究 分类变量的不同水平 是否会对 数值型结果变量 产生显著影响。

也就是说，它主要检验的是：不同组别下，因变量的总体均值是否存在显著差异。

因此从统计建模角度看，方差分析研究的是 分类型自变量对数值型因变量的影响是否显著。

选项 B 说"各样本数据之间是否有显著差异"，表述不够准确。方差分析并不是逐个比较样本数据本身，而是比较不同总体均值之间的差异是否显著。

答案：C. 分类型自变量对数值型因变量的影响是否显著

题目4～6

4️⃣ 研究小白鼠在接种了 3 种不同菌型的伤寒杆菌后存活天数的实验中，因子是（）

A. 接种伤寒杆菌 ✅
B. 存活天数

在方差分析或实验设计中，因子指的是研究者主动控制或分类的条件变量，也就是自变量。

本题中，研究者比较的是"接种 3 种不同菌型的伤寒杆菌"对结果的影响，因此起分类作用的是 菌型（接种条件），它属于因子。

而"存活天数"是实验结果，用来衡量不同处理下的反应情况，属于因变量或观察指标。

答案：A. 接种伤寒杆菌

5️⃣ 单因子方差分析中是否要求每个水平所取的样本的容量相同？（）

A. 是
B. 否 ✅

单因素方差分析并不严格要求每个处理水平下的样本容量完全相同。

也就是说，样本量可以相等，也可以不相等，只要满足方差分析的基本前提，例如总体正态性、方差齐性和样本独立性，通常都可以进行分析。

当然，在实际应用中，若各组样本量相等，计算会更简洁，结果也往往更稳定，但这不是单因素方差分析的必要条件。

答案：B. 否

6️⃣ 在一次假设检验中，下列说法正确的是（）

A. 既可能犯第一类错误，也可能犯第二类错误 ✅
B. 如果备择假设是正确的，但做出的决策是拒绝备择假设，则犯了第一类错误
C. 增大样本容量，则犯两类错误的概率都不变
D. 如果原假设是错误的，但做出的决策是接受原假设，则犯了第一类错误

先回顾两类错误的定义：

第一类错误：原假设 H 0 H_0 H0 真实成立，却把它拒绝了。
第二类错误：原假设 H 0 H_0 H0 实际不成立，却没有拒绝它。

逐项来看：

A 正确：在进行假设检验时，由于样本的随机性，我们无法百分之百确定结论是否正确。因此，在一次检验中，既存在"弃真"的可能（第一类错误），也存在"取伪"的可能（第二类错误）。

B 错误：如果备择假设是正确的（即原假设是错误的），但决策是拒绝备择假设（即接受了原假设），这属于"取伪"，应犯了第二类错误。

C 错误：增大样本容量通常可以同时减小犯两类错误的概率，或者在显著性水平 α \alpha α 固定时，提高检验功效（即减小犯第二类错误概率 β \beta β）。

D 错误：原假设是错误的但做出了接受原假设的决策，这属于典型的"取伪"，即犯了第二类错误（第一类错误的前提是原假设为真）。

答案：A

题目7～8

7️⃣ 在回归分析中，代表了数据点和它在回归直线上相应位置的差异的是（）

A. 总偏差平方和
B. 残差平方和 ✅
C. 回归平方和
D. 偏回归平方和

在回归分析中，每个观测点与回归直线上对应拟合值之间的差，叫做残差。

把所有观测点残差平方后再求和，得到的就是 残差平方和，记作

S S E = ∑ ( y i − y ^ i ) 2 SSE=\sum (y_i-\hat{y}_i)^2 SSE=∑(yi−y^i)2

它反映的是样本点偏离回归直线的程度，也就是模型没有解释掉的那部分波动。

因此题目所说"数据点和它在回归直线上相应位置的差异"，对应的就是 残差平方和。

答案：B. 残差平方和

8️⃣ 两个变量 y y y 与 x x x 的回归模型中，通常用 R 2 R^2 R2 来刻画回归效果，则正确的叙述是（）

A. R 2 R^2 R2 越小，残差平方和小
B. R 2 R^2 R2 越大，残差平方和大
C. R 2 R^2 R2 越小，残差平方和大 ✅
D. R 2 R^2 R2 越小，回归平方和大

在线性回归中，决定系数定义为

R 2 = S S R S S T = 1 − S S E S S T R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST} R2=SSTSSR=1−SSTSSE

其中

S S R SSR SSR 是回归平方和
S S E SSE SSE 是残差平方和
S S T SST SST 是总偏差平方和

在总偏差平方和 S S T SST SST 固定的情况下：

R 2 R^2 R2 越大，说明模型解释的变异越多，残差平方和越小
R 2 R^2 R2 越小，说明模型解释能力越弱，残差平方和越大

因此正确说法是：R 2 R^2 R2 越小，残差平方和越大。

答案：C. R 2 R^2 R2 越小，残差平方和大

二、多选题

题目9

9️⃣ 设 ε 1 , ε 2 , ⋯ , ε n \varepsilon_1,\varepsilon_2,\cdots,\varepsilon_n ε1,ε2,⋯,εn 表示相互独立且都服从 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2) 的随机变量，则下列哪些可化为线性模型：

A. Y i = β 1 + β 2 x i 2 + ε i , i = 1 , 2 , ⋯ , n Y_i=\beta_1+\beta_2x_i^2+\varepsilon_i,\ i=1,2,\cdots,n Yi=β1+β2xi2+εi, i=1,2,⋯,n ✅
B. Y i = β 1 + β 2 x i + ε i 2 , i = 1 , 2 , ⋯ , n Y_i=\beta_1+\beta_2x_i+\varepsilon_i^2,\ i=1,2,\cdots,n Yi=β1+β2xi+εi2, i=1,2,⋯,n
C. Y i = e β 1 e β 2 x i x i β 3 e ε i , i = 1 , 2 , ⋯ , n Y_i=e^{\beta_1}e^{\beta_2x_i}x_i^{\beta_3}e^{\varepsilon_i},\ i=1,2,\cdots,n Yi=eβ1eβ2xixiβ3eεi, i=1,2,⋯,n ✅
D. Y i = β 0 + β 1 e β 2 x i + ε i , i = 1 , 2 , ⋯ , n Y_i=\beta_0+\beta_1e^{\beta_2}x_i+\varepsilon_i,\ i=1,2,\cdots,n Yi=β0+β1eβ2xi+εi, i=1,2,⋯,n
E. Y i = ( ∑ j = 1 p β j x i j + ε i ) 1 / 3 , i = 1 , 2 , ⋯ , n Y_i=\left(\sum_{j=1}^p\beta_jx_{ij}+\varepsilon_i\right)^{1/3},\ i=1,2,\cdots,n Yi=(∑j=1pβjxij+εi)1/3, i=1,2,⋯,n ✅

判断"能否化为线性模型"，核心看两点：

能否通过变量替换，把模型写成 对参数线性
误差项能否保持为 加性形式

下面逐项分析：

A 项 ： Y i = β 1 + β 2 x i 2 + ε i Y_i=\beta_1+\beta_2x_i^2+\varepsilon_i Yi=β1+β2xi2+εi 虽然含有 x i 2 x_i^2 xi2，但它对参数 β 1 , β 2 \beta_1,\beta_2 β1,β2 仍然是线性的。只需把 z i = x i 2 z_i=x_i^2 zi=xi2 看作新的自变量，就得到标准线性模型。因此 A 正确。

B 项 Y i = β 1 + β 2 x i + ε i 2 Y_i=\beta_1+\beta_2x_i+\varepsilon_i^2 Yi=β1+β2xi+εi2 这里问题不在参数，而在误差项。 ε i 2 \varepsilon_i^2 εi2 已经不是均值为 0 的正态误差，也不是通常线性模型里的加性随机误差形式，所以不能视为标准线性模型。故 B 不正确。

C 项 Y i = e β 1 e β 2 x i x i β 3 e ε i Y_i=e^{\beta_1}e^{\beta_2x_i}x_i^{\beta_3}e^{\varepsilon_i} Yi=eβ1eβ2xixiβ3eεi两边取对数：

ln ⁡ Y i = β 1 + β 2 x i + β 3 ln ⁡ x i + ε i \ln Y_i=\beta_1+\beta_2x_i+\beta_3\ln x_i+\varepsilon_i lnYi=β1+β2xi+β3lnxi+εi

此时模型已经变成对参数线性、误差加性的形式，因此可化为线性模型。故 C 正确。

D 项 Y i = β 0 + β 1 e β 2 x i + ε i Y_i=\beta_0+\beta_1e^{\beta_2}x_i+\varepsilon_i Yi=β0+β1eβ2xi+εi 参数 β 1 \beta_1 β1 和 β 2 \beta_2 β2 以乘积且指数形式结合（ β 1 e β 2 \beta_1 e^{\beta_2} β1eβ2）。无论进行何种坐标变换，都无法将 β 1 \beta_1 β1 和 β 2 \beta_2 β2 分解成独立的线性加和形式。这种模型被称为本质非线性模型。

E 项 Y i = ( ∑ j = 1 p β j x i j + ε i ) 1 / 3 Y_i=\left(\sum_{j=1}^p\beta_jx_{ij}+\varepsilon_i\right)^{1/3} Yi=(∑j=1pβjxij+εi)1/3 两边立方可得 Y i 3 = ∑ j = 1 p β j x i j + ε i Y_i^3=\sum_{j=1}^p\beta_jx_{ij}+\varepsilon_i Yi3=∑j=1pβjxij+εi，把 Y i 3 Y_i^3 Yi3 作为新的因变量后，就得到一个多元线性模型，因此 E 也正确。

综上，可化为线性模型的选项是 A、C、E。

答案：A、C、E

三、填空题

题目10～11

🔟 用三种不同材料小球测定引力常数，实验结果如下表所示，试在 α = 0.01 \alpha=0.01 α=0.01 下检验不同小球对引力常数的测定有无显著影响？

上面方差分析表中自由度分别为： ___， ___， ___。

上题中若 α = 0.01 \alpha=0.01 α=0.01，查表得F分位数的值为 ___。

检验结果认为不同材质的球对引力常数测定的影响 ___。

这是一道典型的 单因素方差分析 填空题。

先看各组样本量：钼：5 个、金：6 个、玻璃：5 个

因此总样本量为 n = 5 + 6 + 5 = 16 n=5+6+5=16 n=5+6+5=16，因素水平数为 k = 3 k=3 k=3

所以方差分析表中自由度分别为：

小球（组间）自由度： k − 1 = 3 − 1 = 2 k-1=3-1=2 k−1=3−1=2
误差（组内）自由度： n − k = 16 − 3 = 13 n-k=16-3=13 n−k=16−3=13
总和自由度： n − 1 = 16 − 1 = 15 n-1=16-1=15 n−1=16−1=15

即 d = 2 , e = 13 , f = 15 d=2,\qquad e=13,\qquad f=15 d=2,e=13,f=15

题目已经给出检验统计量 F = 26.08 F=26.08 F=26.08，在显著性水平 α = 0.01 \alpha=0.01 α=0.01 下，应查 F 0.01 ( 2 , 13 ) F_{0.01}(2,13) F0.01(2,13)。查表或计算可得

F 0.01 ( 2 , 13 ) ≈ 6.70 F_{0.01}(2,13)\approx 6.70 F0.01(2,13)≈6.70

因为 26.08 > 6.70 26.08>6.70 26.08>6.70，所以拒绝原假设，认为不同材料的小球对引力常数测定的影响显著。

答案：

自由度分别为： 2 ， 13 ， 15 2，13，15 2，13，15

F F F 分位数的值为： 6.70 6.70 6.70

检验结果：不同材质的小球对引力常数测定的影响显著

1️⃣1️⃣ 今型号的电池分别为甲、乙、丙三个工厂所生产，为评比其质量各随机抽 5 只电池为样本，测其寿命（小时）如下：

甲： 40 , 48 , 38 , 42 , 45 40,\ 48,\ 38,\ 42,\ 45 40, 48, 38, 42, 45

乙： 26 , 34 , 30 , 28 , 32 26,\ 34,\ 30,\ 28,\ 32 26, 34, 30, 28, 32

丙： 39 , 40 , 43 , 50 , 50 39,\ 40,\ 43,\ 50,\ 50 39, 40, 43, 50, 50

试在显著性水平 α = 0.05 \alpha=0.05 α=0.05 下检验电池的平均寿命有无显著差异。

根据题中数据做方差分析表，得 S A = ‾ , S E = ‾ S_A=\underline{\qquad},\qquad S_E=\underline{\qquad} SA=,SE=

这是一道单因素方差分析计算题，其中因素是厂家，指标是 电池寿命。

先求各组均值：

x ˉ 1 = 40 + 48 + 38 + 42 + 45 5 = 42.6 \bar{x}_1=\frac{40+48+38+42+45}{5}=42.6 xˉ1=540+48+38+42+45=42.6

x ˉ 2 = 26 + 34 + 30 + 28 + 32 5 = 30 \bar{x}_2=\frac{26+34+30+28+32}{5}=30 xˉ2=526+34+30+28+32=30

x ˉ 3 = 39 + 40 + 43 + 50 + 50 5 = 44.4 \bar{x}_3=\frac{39+40+43+50+50}{5}=44.4 xˉ3=539+40+43+50+50=44.4

总均值为

x ˉ = 40 + 48 + 38 + 42 + 45 + 26 + 34 + 30 + 28 + 32 + 39 + 40 + 43 + 50 + 50 15 = 39 \bar{x}=\frac{40+48+38+42+45+26+34+30+28+32+39+40+43+50+50}{15}=39 xˉ=1540+48+38+42+45+26+34+30+28+32+39+40+43+50+50=39

组间平方和为

S A = ∑ i = 1 k n i ( x ˉ i − x ˉ ) 2 S_A=\sum_{i=1}^k n_i(\bar{x}_i-\bar{x})^2 SA=i=1∑kni(xˉi−xˉ)2

代入数据得

S A = 5 ( 42.6 − 39 ) 2 + 5 ( 30 − 39 ) 2 + 5 ( 44.4 − 39 ) 2 S_A=5(42.6-39)^2+5(30-39)^2+5(44.4-39)^2 SA=5(42.6−39)2+5(30−39)2+5(44.4−39)2

= 5 × 3.6 2 + 5 × ( − 9 ) 2 + 5 × 5.4 2 =5\times 3.6^2+5\times (-9)^2+5\times 5.4^2 =5×3.62+5×(−9)2+5×5.42

= 64.8 + 405 + 145.8 = 615.6 =64.8+405+145.8=615.6 =64.8+405+145.8=615.6

误差平方和为

S E = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ˉ i ) 2 S_E=\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2 SE=i=1∑kj=1∑ni(xij−xˉi)2

分别计算三组组内离差平方和后相加，可得

S E = 216.4 S_E=216.4 SE=216.4

所以方差分析表中应填写：

S A = 615.6 , S E = 216.4 S_A=615.6,\qquad S_E=216.4 SA=615.6,SE=216.4

答案：

S A = 615.6 S_A=615.6 SA=615.6

S E = 216.4 S_E=216.4 SE=216.4

四、判断题

题目12～14

1️⃣2️⃣ 在多元线性回归分析的检验中，只要检验回归方程的系数即可，不需要检验回归方程的显著性。

A. 对
B. 错 ✅

在多元线性回归分析中，通常既要检验 回归方程整体是否显著 ，也要检验 各个回归系数是否显著。

这是两个不同层面的检验：

回归方程的显著性检验：考察自变量整体对因变量是否有线性影响
回归系数的显著性检验：考察某一个具体自变量的影响是否显著

因此不能只检验回归系数，而不检验回归方程整体显著性。

答案：B. 错

1️⃣3️⃣ 把一批同种纱线袜放在不同温度的水中洗涤，进行收缩率试验。水温分为 6 个水平，每个水平下各洗 4 只袜子，袜子的收缩率以百分数记，题目给出了方差分析表：

温度平方和 = 55.54 , 误差平方和 = 56.73 , 总平方和 = 112.27 \text{温度平方和}=55.54,\quad \text{误差平方和}=56.73,\quad \text{总平方和}=112.27 温度平方和=55.54,误差平方和=56.73,总平方和=112.27

温度自由度 = 5 , 误差自由度 = 18 , 总自由度 = 23 \text{温度自由度}=5,\quad \text{误差自由度}=18,\quad \text{总自由度}=23 温度自由度=5,误差自由度=18,总自由度=23

F = 3.52 , F 0.95 ( 5 , 18 ) = 2.77 F=3.52,\qquad F_{0.95}(5,18)=2.77 F=3.52,F0.95(5,18)=2.77

并据此得出"不同洗涤水温对袜子的收缩率有显著影响"的结论。判断对错。

A. 对 ✅
B. 错

这是一道单因素方差分析判断题。

题目已经给出检验统计量

F = 3.52 F=3.52 F=3.52

以及临界值

F 0.95 ( 5 , 18 ) = 2.77 F_{0.95}(5,18)=2.77 F0.95(5,18)=2.77

因为

3.52 > 2.77 3.52>2.77 3.52>2.77

所以应当拒绝原假设，说明不同温度下袜子收缩率的总体均值不全相同，即洗涤水温对袜子收缩率有显著影响。

因此题目最后给出的结论是正确的。

答案：A. 对

1️⃣4️⃣ 在多元线性回归分析的检验中，只要回归方程显著，回归方程的每个系数都是显著的。

A. 对
B. 错 ✅

回归方程整体显著，只能说明 自变量整体上 对因变量有显著线性影响。

这并不意味着每一个回归系数都一定显著。实际中可能出现：

方程整体显著
但某些单个系数由于多重共线性或样本波动，并不显著

所以"整体显著"与"每个系数都显著"不是同一个结论，不能混为一谈。

答案：B. 错

题目15～16

1️⃣5️⃣ 方差分析表中，组间平方和反应因子各水平间的差异，与实验误差无关。

A. 对
B. 错 ✅

在方差分析中，总离差平方和通常分解为

S T = S A + S E S_T=S_A+S_E ST=SA+SE

其中

S A S_A SA 表示组间平方和
S E S_E SE 表示误差平方和

在方差分析（ANOVA）中，组间平方和（ S S A SS_A SSA 或 S S B e t w e e n SS_{Between} SSBetween）确实反映了因子各水平间的差异，但它并不是"与实验误差无关"的。

组间平方和的构成：它包含了随机误差（由于抽样波动引起的误差）和因子效应（不同水平导致的处理效应）。

期望均方角度：组间均方（ M S A MS_A MSA）的期望值 E ( M S A ) = σ 2 + Q E(MS_A) = \sigma^2 + Q E(MSA)=σ2+Q（其中 σ 2 \sigma^2 σ2 是误差方差， Q Q Q 是处理效应的衡量）。因此，即便因子没有显著影响，组间平方和也会因为随机误差的存在而不为零。

答案：B. 错

1️⃣6️⃣ 多元线性回归模型中未知参数向量 β \beta β 的最小二乘估计是 β \beta β 的无偏估计。

A. 对 ✅
B. 错

在满足经典线性回归模型基本假设的条件下， Y = X β + ε , E ( ε ) = 0 Y=X\beta+\varepsilon,\qquad E(\varepsilon)=0 Y=Xβ+ε,E(ε)=0

最小二乘估计量为 β ^ = ( X T X ) − 1 X T Y \hat{\beta}=(X^\mathrm{T}X)^{-1}X^\mathrm{T}Y β^=(XTX)−1XTY

对它取期望可得 E ( β ^ ) = ( X T X ) − 1 X T E ( Y ) E(\hat{\beta})=(X^\mathrm{T}X)^{-1}X^\mathrm{T}E(Y) E(β^)=(XTX)−1XTE(Y)

又因为 E ( Y ) = X β E(Y)=X\beta E(Y)=Xβ，所以 E ( β ^ ) = ( X T X ) − 1 X T X β = β E(\hat{\beta})=(X^\mathrm{T}X)^{-1}X^\mathrm{T}X\beta=\beta E(β^)=(XTX)−1XTXβ=β

因此最小二乘估计 β ^ \hat{\beta} β^ 是参数向量 β \beta β 的无偏估计。

答案：A. 对