【TJU】应用统计学------第七周作业(4.2 多元线性回归分析、4.3 可化为线性回归的曲线回归、4.4 单因子方差分析)
一、单选题
题目1~3
1️⃣ 在方差分析中,检验统计量 F F F 是( )
- A. 组间平方和除以组内平方和
- B. 组间均方除以组内均方 ✅
- C. 组间平方和除以总平方和
- D. 组间均方除以总均方
在单因素方差分析中,检验统计量采用
F = 组间均方 组内均方 F=\frac{\text{组间均方}}{\text{组内均方}} F=组内均方组间均方
其中,组间均方反映不同处理之间的差异,组内均方反映随机误差大小。
如果原假设成立,那么组间差异主要来自随机波动,此时组间均方与组内均方应当比较接近;如果 F F F 值明显偏大,则说明组间差异显著。
因此检验统计量应为 组间均方除以组内均方。
答案:B. 组间均方除以组内均方
2️⃣ 以下哪个不属于方差分析的假定( )
- A. 每个总体都服从正态分布
- B. 各总体的方差相等
- C. 观测值是独立的
- D. 各总体的方差等于 0 ✅
方差分析的基本假定通常有三个:
- 各总体服从正态分布
- 各总体方差相等
- 各观测值相互独立
因此 A、B、C 都属于方差分析的常见前提条件。
而"各总体的方差等于 0"显然不是方差分析的假定。若方差等于 0,说明各总体中数据完全没有波动,这与实际统计建模背景不符。
答案:D. 各总体的方差等于 0
3️⃣ 方差分析的主要目的是判断( )
- A. 各总体是否存在方差
- B. 各样本数据之间是否有显著差异
- C. 分类型自变量对数值型因变量的影响是否显著 ✅
- D. 分类型因变量对数值型自变量的影响是否显著
方差分析的核心思想,是研究 分类变量的不同水平 是否会对 数值型结果变量 产生显著影响。
也就是说,它主要检验的是:不同组别下,因变量的总体均值是否存在显著差异。
因此从统计建模角度看,方差分析研究的是 分类型自变量对数值型因变量的影响是否显著。
选项 B 说"各样本数据之间是否有显著差异",表述不够准确。方差分析并不是逐个比较样本数据本身,而是比较不同总体均值之间的差异是否显著。
答案:C. 分类型自变量对数值型因变量的影响是否显著
题目4~6
4️⃣ 研究小白鼠在接种了 3 种不同菌型的伤寒杆菌后存活天数的实验中,因子是( )
- A. 接种伤寒杆菌 ✅
- B. 存活天数
在方差分析或实验设计中,因子 指的是研究者主动控制或分类的条件变量,也就是自变量。
本题中,研究者比较的是"接种 3 种不同菌型的伤寒杆菌"对结果的影响,因此起分类作用的是 菌型(接种条件),它属于因子。
而"存活天数"是实验结果,用来衡量不同处理下的反应情况,属于因变量或观察指标。
答案:A. 接种伤寒杆菌
5️⃣ 单因子方差分析中是否要求每个水平所取的样本的容量相同?( )
- A. 是
- B. 否 ✅
单因素方差分析并不严格要求每个处理水平下的样本容量完全相同。
也就是说,样本量可以相等,也可以不相等,只要满足方差分析的基本前提,例如总体正态性、方差齐性和样本独立性,通常都可以进行分析。
当然,在实际应用中,若各组样本量相等,计算会更简洁,结果也往往更稳定,但这不是单因素方差分析的必要条件。
答案:B. 否
6️⃣ 在一次假设检验中,下列说法正确的是( )
- A. 既可能犯第一类错误,也可能犯第二类错误 ✅
- B. 如果备择假设是正确的,但做出的决策是拒绝备择假设,则犯了第一类错误
- C. 增大样本容量,则犯两类错误的概率都不变
- D. 如果原假设是错误的,但做出的决策是接受原假设,则犯了第一类错误
先回顾两类错误的定义:
- 第一类错误:原假设 H 0 H_0 H0 真实成立,却把它拒绝了。
- 第二类错误:原假设 H 0 H_0 H0 实际不成立,却没有拒绝它。
逐项来看:
A 正确: 在进行假设检验时,由于样本的随机性,我们无法百分之百确定结论是否正确。因此,在一次检验中,既存在"弃真"的可能(第一类错误),也存在"取伪"的可能(第二类错误)。
B 错误: 如果备择假设是正确的(即原假设是错误的),但决策是拒绝备择假设(即接受了原假设),这属于"取伪",应犯了第二类错误。
C 错误: 增大样本容量通常可以同时减小犯两类错误的概率,或者在显著性水平 α \alpha α 固定时,提高检验功效(即减小犯第二类错误概率 β \beta β)。
D 错误: 原假设是错误的但做出了接受原假设的决策,这属于典型的"取伪",即犯了第二类错误(第一类错误的前提是原假设为真)。
答案:A
题目7~8
7️⃣ 在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( )
- A. 总偏差平方和
- B. 残差平方和 ✅
- C. 回归平方和
- D. 偏回归平方和
在回归分析中,每个观测点与回归直线上对应拟合值之间的差,叫做 残差。
把所有观测点残差平方后再求和,得到的就是 残差平方和,记作
S S E = ∑ ( y i − y ^ i ) 2 SSE=\sum (y_i-\hat{y}_i)^2 SSE=∑(yi−y^i)2
它反映的是样本点偏离回归直线的程度,也就是模型没有解释掉的那部分波动。
因此题目所说"数据点和它在回归直线上相应位置的差异",对应的就是 残差平方和。
答案:B. 残差平方和
8️⃣ 两个变量 y y y 与 x x x 的回归模型中,通常用 R 2 R^2 R2 来刻画回归效果,则正确的叙述是( )
- A. R 2 R^2 R2 越小,残差平方和小
- B. R 2 R^2 R2 越大,残差平方和大
- C. R 2 R^2 R2 越小,残差平方和大 ✅
- D. R 2 R^2 R2 越小,回归平方和大
在线性回归中,决定系数定义为
R 2 = S S R S S T = 1 − S S E S S T R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST} R2=SSTSSR=1−SSTSSE
其中
- S S R SSR SSR 是回归平方和
- S S E SSE SSE 是残差平方和
- S S T SST SST 是总偏差平方和
在总偏差平方和 S S T SST SST 固定的情况下:
- R 2 R^2 R2 越大,说明模型解释的变异越多,残差平方和越小
- R 2 R^2 R2 越小,说明模型解释能力越弱,残差平方和越大
因此正确说法是:R 2 R^2 R2 越小,残差平方和越大。
答案:C. R 2 R^2 R2 越小,残差平方和大
二、多选题
题目9
9️⃣ 设 ε 1 , ε 2 , ⋯ , ε n \varepsilon_1,\varepsilon_2,\cdots,\varepsilon_n ε1,ε2,⋯,εn 表示相互独立且都服从 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2) 的随机变量,则下列哪些可化为线性模型:
- A. Y i = β 1 + β 2 x i 2 + ε i , i = 1 , 2 , ⋯ , n Y_i=\beta_1+\beta_2x_i^2+\varepsilon_i,\ i=1,2,\cdots,n Yi=β1+β2xi2+εi, i=1,2,⋯,n ✅
- B. Y i = β 1 + β 2 x i + ε i 2 , i = 1 , 2 , ⋯ , n Y_i=\beta_1+\beta_2x_i+\varepsilon_i^2,\ i=1,2,\cdots,n Yi=β1+β2xi+εi2, i=1,2,⋯,n
- C. Y i = e β 1 e β 2 x i x i β 3 e ε i , i = 1 , 2 , ⋯ , n Y_i=e^{\beta_1}e^{\beta_2x_i}x_i^{\beta_3}e^{\varepsilon_i},\ i=1,2,\cdots,n Yi=eβ1eβ2xixiβ3eεi, i=1,2,⋯,n ✅
- D. Y i = β 0 + β 1 e β 2 x i + ε i , i = 1 , 2 , ⋯ , n Y_i=\beta_0+\beta_1e^{\beta_2}x_i+\varepsilon_i,\ i=1,2,\cdots,n Yi=β0+β1eβ2xi+εi, i=1,2,⋯,n
- E. Y i = ( ∑ j = 1 p β j x i j + ε i ) 1 / 3 , i = 1 , 2 , ⋯ , n Y_i=\left(\sum_{j=1}^p\beta_jx_{ij}+\varepsilon_i\right)^{1/3},\ i=1,2,\cdots,n Yi=(∑j=1pβjxij+εi)1/3, i=1,2,⋯,n ✅
判断"能否化为线性模型",核心看两点:
- 能否通过变量替换,把模型写成 对参数线性
- 误差项能否保持为 加性形式
下面逐项分析:
A 项 : Y i = β 1 + β 2 x i 2 + ε i Y_i=\beta_1+\beta_2x_i^2+\varepsilon_i Yi=β1+β2xi2+εi 虽然含有 x i 2 x_i^2 xi2,但它对参数 β 1 , β 2 \beta_1,\beta_2 β1,β2 仍然是线性的。只需把 z i = x i 2 z_i=x_i^2 zi=xi2 看作新的自变量,就得到标准线性模型。因此 A 正确。
B 项 Y i = β 1 + β 2 x i + ε i 2 Y_i=\beta_1+\beta_2x_i+\varepsilon_i^2 Yi=β1+β2xi+εi2 这里问题不在参数,而在误差项。 ε i 2 \varepsilon_i^2 εi2 已经不是均值为 0 的正态误差,也不是通常线性模型里的加性随机误差形式,所以不能视为标准线性模型。故 B 不正确。
C 项 Y i = e β 1 e β 2 x i x i β 3 e ε i Y_i=e^{\beta_1}e^{\beta_2x_i}x_i^{\beta_3}e^{\varepsilon_i} Yi=eβ1eβ2xixiβ3eεi两边取对数:
ln Y i = β 1 + β 2 x i + β 3 ln x i + ε i \ln Y_i=\beta_1+\beta_2x_i+\beta_3\ln x_i+\varepsilon_i lnYi=β1+β2xi+β3lnxi+εi
此时模型已经变成对参数线性、误差加性的形式,因此可化为线性模型。故 C 正确。
D 项 Y i = β 0 + β 1 e β 2 x i + ε i Y_i=\beta_0+\beta_1e^{\beta_2}x_i+\varepsilon_i Yi=β0+β1eβ2xi+εi 参数 β 1 \beta_1 β1 和 β 2 \beta_2 β2 以乘积且指数形式结合( β 1 e β 2 \beta_1 e^{\beta_2} β1eβ2)。无论进行何种坐标变换,都无法将 β 1 \beta_1 β1 和 β 2 \beta_2 β2 分解成独立的线性加和形式。这种模型被称为本质非线性模型。
E 项 Y i = ( ∑ j = 1 p β j x i j + ε i ) 1 / 3 Y_i=\left(\sum_{j=1}^p\beta_jx_{ij}+\varepsilon_i\right)^{1/3} Yi=(∑j=1pβjxij+εi)1/3 两边立方可得 Y i 3 = ∑ j = 1 p β j x i j + ε i Y_i^3=\sum_{j=1}^p\beta_jx_{ij}+\varepsilon_i Yi3=∑j=1pβjxij+εi,把 Y i 3 Y_i^3 Yi3 作为新的因变量后,就得到一个多元线性模型,因此 E 也正确。
综上,可化为线性模型的选项是 A、C、E。
答案:A、C、E
三、填空题
题目10~11
🔟 用三种不同材料小球测定引力常数,实验结果如下表所示,试在 α = 0.01 \alpha=0.01 α=0.01 下检验不同小球对引力常数的测定有无显著影响?

上面方差分析表中自由度分别为: ___, ___, ___。
上题中若 α = 0.01 \alpha=0.01 α=0.01,查表得F分位数的值为 ___。
检验结果认为不同材质的球对引力常数测定的影响 ___。
这是一道典型的 单因素方差分析 填空题。
先看各组样本量: 钼:5 个、金:6 个、玻璃:5 个
因此总样本量为 n = 5 + 6 + 5 = 16 n=5+6+5=16 n=5+6+5=16,因素水平数为 k = 3 k=3 k=3
所以方差分析表中自由度分别为:
- 小球(组间)自由度: k − 1 = 3 − 1 = 2 k-1=3-1=2 k−1=3−1=2
- 误差(组内)自由度: n − k = 16 − 3 = 13 n-k=16-3=13 n−k=16−3=13
- 总和自由度: n − 1 = 16 − 1 = 15 n-1=16-1=15 n−1=16−1=15
即 d = 2 , e = 13 , f = 15 d=2,\qquad e=13,\qquad f=15 d=2,e=13,f=15
题目已经给出检验统计量 F = 26.08 F=26.08 F=26.08,在显著性水平 α = 0.01 \alpha=0.01 α=0.01 下,应查 F 0.01 ( 2 , 13 ) F_{0.01}(2,13) F0.01(2,13)。查表或计算可得
F 0.01 ( 2 , 13 ) ≈ 6.70 F_{0.01}(2,13)\approx 6.70 F0.01(2,13)≈6.70
因为 26.08 > 6.70 26.08>6.70 26.08>6.70,所以拒绝原假设,认为不同材料的小球对引力常数测定的影响 显著。
答案:
自由度分别为: 2 , 13 , 15 2,13,15 2,13,15
F F F 分位数的值为: 6.70 6.70 6.70
检验结果:不同材质的小球对引力常数测定的影响 显著
1️⃣1️⃣ 今型号的电池分别为甲、乙、丙三个工厂所生产,为评比其质量各随机抽 5 只电池为样本,测其寿命(小时)如下:
甲: 40 , 48 , 38 , 42 , 45 40,\ 48,\ 38,\ 42,\ 45 40, 48, 38, 42, 45
乙: 26 , 34 , 30 , 28 , 32 26,\ 34,\ 30,\ 28,\ 32 26, 34, 30, 28, 32
丙: 39 , 40 , 43 , 50 , 50 39,\ 40,\ 43,\ 50,\ 50 39, 40, 43, 50, 50
试在显著性水平 α = 0.05 \alpha=0.05 α=0.05 下检验电池的平均寿命有无显著差异。
根据题中数据做方差分析表,得 S A = ‾ , S E = ‾ S_A=\underline{\qquad},\qquad S_E=\underline{\qquad} SA=,SE=
这是一道单因素方差分析计算题,其中因素是 厂家 ,指标是 电池寿命。
先求各组均值:
x ˉ 1 = 40 + 48 + 38 + 42 + 45 5 = 42.6 \bar{x}_1=\frac{40+48+38+42+45}{5}=42.6 xˉ1=540+48+38+42+45=42.6
x ˉ 2 = 26 + 34 + 30 + 28 + 32 5 = 30 \bar{x}_2=\frac{26+34+30+28+32}{5}=30 xˉ2=526+34+30+28+32=30
x ˉ 3 = 39 + 40 + 43 + 50 + 50 5 = 44.4 \bar{x}_3=\frac{39+40+43+50+50}{5}=44.4 xˉ3=539+40+43+50+50=44.4
总均值为
x ˉ = 40 + 48 + 38 + 42 + 45 + 26 + 34 + 30 + 28 + 32 + 39 + 40 + 43 + 50 + 50 15 = 39 \bar{x}=\frac{40+48+38+42+45+26+34+30+28+32+39+40+43+50+50}{15}=39 xˉ=1540+48+38+42+45+26+34+30+28+32+39+40+43+50+50=39
组间平方和为
S A = ∑ i = 1 k n i ( x ˉ i − x ˉ ) 2 S_A=\sum_{i=1}^k n_i(\bar{x}_i-\bar{x})^2 SA=i=1∑kni(xˉi−xˉ)2
代入数据得
S A = 5 ( 42.6 − 39 ) 2 + 5 ( 30 − 39 ) 2 + 5 ( 44.4 − 39 ) 2 S_A=5(42.6-39)^2+5(30-39)^2+5(44.4-39)^2 SA=5(42.6−39)2+5(30−39)2+5(44.4−39)2
= 5 × 3.6 2 + 5 × ( − 9 ) 2 + 5 × 5.4 2 =5\times 3.6^2+5\times (-9)^2+5\times 5.4^2 =5×3.62+5×(−9)2+5×5.42
= 64.8 + 405 + 145.8 = 615.6 =64.8+405+145.8=615.6 =64.8+405+145.8=615.6
误差平方和为
S E = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ˉ i ) 2 S_E=\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2 SE=i=1∑kj=1∑ni(xij−xˉi)2
分别计算三组组内离差平方和后相加,可得
S E = 216.4 S_E=216.4 SE=216.4
所以方差分析表中应填写:
S A = 615.6 , S E = 216.4 S_A=615.6,\qquad S_E=216.4 SA=615.6,SE=216.4
答案:
S A = 615.6 S_A=615.6 SA=615.6
S E = 216.4 S_E=216.4 SE=216.4
四、判断题
题目12~14
1️⃣2️⃣ 在多元线性回归分析的检验中,只要检验回归方程的系数即可,不需要检验回归方程的显著性。
- A. 对
- B. 错 ✅
在多元线性回归分析中,通常既要检验 回归方程整体是否显著 ,也要检验 各个回归系数是否显著。
这是两个不同层面的检验:
- 回归方程的显著性检验:考察自变量整体对因变量是否有线性影响
- 回归系数的显著性检验:考察某一个具体自变量的影响是否显著
因此不能只检验回归系数,而不检验回归方程整体显著性。
答案:B. 错
1️⃣3️⃣ 把一批同种纱线袜放在不同温度的水中洗涤,进行收缩率试验。水温分为 6 个水平,每个水平下各洗 4 只袜子,袜子的收缩率以百分数记,题目给出了方差分析表:
温度平方和 = 55.54 , 误差平方和 = 56.73 , 总平方和 = 112.27 \text{温度平方和}=55.54,\quad \text{误差平方和}=56.73,\quad \text{总平方和}=112.27 温度平方和=55.54,误差平方和=56.73,总平方和=112.27
温度自由度 = 5 , 误差自由度 = 18 , 总自由度 = 23 \text{温度自由度}=5,\quad \text{误差自由度}=18,\quad \text{总自由度}=23 温度自由度=5,误差自由度=18,总自由度=23
F = 3.52 , F 0.95 ( 5 , 18 ) = 2.77 F=3.52,\qquad F_{0.95}(5,18)=2.77 F=3.52,F0.95(5,18)=2.77
并据此得出"不同洗涤水温对袜子的收缩率有显著影响"的结论。判断对错。
- A. 对 ✅
- B. 错
这是一道单因素方差分析判断题。
题目已经给出检验统计量
F = 3.52 F=3.52 F=3.52
以及临界值
F 0.95 ( 5 , 18 ) = 2.77 F_{0.95}(5,18)=2.77 F0.95(5,18)=2.77
因为
3.52 > 2.77 3.52>2.77 3.52>2.77
所以应当拒绝原假设,说明不同温度下袜子收缩率的总体均值不全相同,即洗涤水温对袜子收缩率有显著影响。
因此题目最后给出的结论是正确的。
答案:A. 对
1️⃣4️⃣ 在多元线性回归分析的检验中,只要回归方程显著,回归方程的每个系数都是显著的。
- A. 对
- B. 错 ✅
回归方程整体显著,只能说明 自变量整体上 对因变量有显著线性影响。
这并不意味着每一个回归系数都一定显著。实际中可能出现:
- 方程整体显著
- 但某些单个系数由于多重共线性或样本波动,并不显著
所以"整体显著"与"每个系数都显著"不是同一个结论,不能混为一谈。
答案:B. 错
题目15~16
1️⃣5️⃣ 方差分析表中,组间平方和反应因子各水平间的差异,与实验误差无关。
- A. 对
- B. 错 ✅
在方差分析中,总离差平方和通常分解为
S T = S A + S E S_T=S_A+S_E ST=SA+SE
其中
- S A S_A SA 表示组间平方和
- S E S_E SE 表示误差平方和
在方差分析(ANOVA)中,组间平方和( S S A SS_A SSA 或 S S B e t w e e n SS_{Between} SSBetween) 确实反映了因子各水平间的差异,但它并不是"与实验误差无关"的。
组间平方和的构成: 它包含了随机误差(由于抽样波动引起的误差)和因子效应(不同水平导致的处理效应)。
期望均方角度: 组间均方( M S A MS_A MSA)的期望值 E ( M S A ) = σ 2 + Q E(MS_A) = \sigma^2 + Q E(MSA)=σ2+Q(其中 σ 2 \sigma^2 σ2 是误差方差, Q Q Q 是处理效应的衡量)。因此,即便因子没有显著影响,组间平方和也会因为随机误差的存在而不为零。
答案:B. 错
1️⃣6️⃣ 多元线性回归模型中未知参数向量 β \beta β 的最小二乘估计是 β \beta β 的无偏估计。
- A. 对 ✅
- B. 错
在满足经典线性回归模型基本假设的条件下, Y = X β + ε , E ( ε ) = 0 Y=X\beta+\varepsilon,\qquad E(\varepsilon)=0 Y=Xβ+ε,E(ε)=0
最小二乘估计量为 β ^ = ( X T X ) − 1 X T Y \hat{\beta}=(X^\mathrm{T}X)^{-1}X^\mathrm{T}Y β^=(XTX)−1XTY
对它取期望可得 E ( β ^ ) = ( X T X ) − 1 X T E ( Y ) E(\hat{\beta})=(X^\mathrm{T}X)^{-1}X^\mathrm{T}E(Y) E(β^)=(XTX)−1XTE(Y)
又因为 E ( Y ) = X β E(Y)=X\beta E(Y)=Xβ,所以 E ( β ^ ) = ( X T X ) − 1 X T X β = β E(\hat{\beta})=(X^\mathrm{T}X)^{-1}X^\mathrm{T}X\beta=\beta E(β^)=(XTX)−1XTXβ=β
因此最小二乘估计 β ^ \hat{\beta} β^ 是参数向量 β \beta β 的无偏估计。
答案:A. 对