【TJU】应用统计学——第七周作业(4.2 多元线性回归分析、4.3 可化为线性回归的曲线回归、4.4 单因子方差分析)

【TJU】应用统计学------第七周作业(4.2 多元线性回归分析、4.3 可化为线性回归的曲线回归、4.4 单因子方差分析)

一、单选题

题目1~3


1️⃣ 在方差分析中,检验统计量 F F F 是( )

  • A. 组间平方和除以组内平方和
  • B. 组间均方除以组内均方 ✅
  • C. 组间平方和除以总平方和
  • D. 组间均方除以总均方

在单因素方差分析中,检验统计量采用

F = 组间均方 组内均方 F=\frac{\text{组间均方}}{\text{组内均方}} F=组内均方组间均方

其中,组间均方反映不同处理之间的差异,组内均方反映随机误差大小。

如果原假设成立,那么组间差异主要来自随机波动,此时组间均方与组内均方应当比较接近;如果 F F F 值明显偏大,则说明组间差异显著。

因此检验统计量应为 组间均方除以组内均方


答案:B. 组间均方除以组内均方


2️⃣ 以下哪个不属于方差分析的假定( )

  • A. 每个总体都服从正态分布
  • B. 各总体的方差相等
  • C. 观测值是独立的
  • D. 各总体的方差等于 0 ✅

方差分析的基本假定通常有三个:

  • 各总体服从正态分布
  • 各总体方差相等
  • 各观测值相互独立

因此 A、B、C 都属于方差分析的常见前提条件。

而"各总体的方差等于 0"显然不是方差分析的假定。若方差等于 0,说明各总体中数据完全没有波动,这与实际统计建模背景不符。


答案:D. 各总体的方差等于 0


3️⃣ 方差分析的主要目的是判断( )

  • A. 各总体是否存在方差
  • B. 各样本数据之间是否有显著差异
  • C. 分类型自变量对数值型因变量的影响是否显著 ✅
  • D. 分类型因变量对数值型自变量的影响是否显著

方差分析的核心思想,是研究 分类变量的不同水平 是否会对 数值型结果变量 产生显著影响。

也就是说,它主要检验的是:不同组别下,因变量的总体均值是否存在显著差异。

因此从统计建模角度看,方差分析研究的是 分类型自变量对数值型因变量的影响是否显著

选项 B 说"各样本数据之间是否有显著差异",表述不够准确。方差分析并不是逐个比较样本数据本身,而是比较不同总体均值之间的差异是否显著。


答案:C. 分类型自变量对数值型因变量的影响是否显著


题目4~6


4️⃣ 研究小白鼠在接种了 3 种不同菌型的伤寒杆菌后存活天数的实验中,因子是( )

  • A. 接种伤寒杆菌 ✅
  • B. 存活天数

在方差分析或实验设计中,因子 指的是研究者主动控制或分类的条件变量,也就是自变量。

本题中,研究者比较的是"接种 3 种不同菌型的伤寒杆菌"对结果的影响,因此起分类作用的是 菌型(接种条件),它属于因子。

而"存活天数"是实验结果,用来衡量不同处理下的反应情况,属于因变量或观察指标。


答案:A. 接种伤寒杆菌


5️⃣ 单因子方差分析中是否要求每个水平所取的样本的容量相同?( )

  • A. 是
  • B. 否 ✅

单因素方差分析并不严格要求每个处理水平下的样本容量完全相同。

也就是说,样本量可以相等,也可以不相等,只要满足方差分析的基本前提,例如总体正态性、方差齐性和样本独立性,通常都可以进行分析。

当然,在实际应用中,若各组样本量相等,计算会更简洁,结果也往往更稳定,但这不是单因素方差分析的必要条件。


答案:B. 否


6️⃣ 在一次假设检验中,下列说法正确的是( )

  • A. 既可能犯第一类错误,也可能犯第二类错误 ✅
  • B. 如果备择假设是正确的,但做出的决策是拒绝备择假设,则犯了第一类错误
  • C. 增大样本容量,则犯两类错误的概率都不变
  • D. 如果原假设是错误的,但做出的决策是接受原假设,则犯了第一类错误

先回顾两类错误的定义:

  • 第一类错误:原假设 H 0 H_0 H0 真实成立,却把它拒绝了。
  • 第二类错误:原假设 H 0 H_0 H0 实际不成立,却没有拒绝它。

逐项来看:

A 正确: 在进行假设检验时,由于样本的随机性,我们无法百分之百确定结论是否正确。因此,在一次检验中,既存在"弃真"的可能(第一类错误),也存在"取伪"的可能(第二类错误)。

B 错误: 如果备择假设是正确的(即原假设是错误的),但决策是拒绝备择假设(即接受了原假设),这属于"取伪",应犯了第二类错误。

C 错误: 增大样本容量通常可以同时减小犯两类错误的概率,或者在显著性水平 α \alpha α 固定时,提高检验功效(即减小犯第二类错误概率 β \beta β)。

D 错误: 原假设是错误的但做出了接受原假设的决策,这属于典型的"取伪",即犯了第二类错误(第一类错误的前提是原假设为真)。


答案:A


题目7~8


7️⃣ 在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( )

  • A. 总偏差平方和
  • B. 残差平方和 ✅
  • C. 回归平方和
  • D. 偏回归平方和

在回归分析中,每个观测点与回归直线上对应拟合值之间的差,叫做 残差

把所有观测点残差平方后再求和,得到的就是 残差平方和,记作

S S E = ∑ ( y i − y ^ i ) 2 SSE=\sum (y_i-\hat{y}_i)^2 SSE=∑(yi−y^i)2

它反映的是样本点偏离回归直线的程度,也就是模型没有解释掉的那部分波动。

因此题目所说"数据点和它在回归直线上相应位置的差异",对应的就是 残差平方和


答案:B. 残差平方和


8️⃣ 两个变量 y y y 与 x x x 的回归模型中,通常用 R 2 R^2 R2 来刻画回归效果,则正确的叙述是( )

  • A. R 2 R^2 R2 越小,残差平方和小
  • B. R 2 R^2 R2 越大,残差平方和大
  • C. R 2 R^2 R2 越小,残差平方和大 ✅
  • D. R 2 R^2 R2 越小,回归平方和大

在线性回归中,决定系数定义为

R 2 = S S R S S T = 1 − S S E S S T R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST} R2=SSTSSR=1−SSTSSE

其中

  • S S R SSR SSR 是回归平方和
  • S S E SSE SSE 是残差平方和
  • S S T SST SST 是总偏差平方和

在总偏差平方和 S S T SST SST 固定的情况下:

  • R 2 R^2 R2 越大,说明模型解释的变异越多,残差平方和越小
  • R 2 R^2 R2 越小,说明模型解释能力越弱,残差平方和越大

因此正确说法是:R 2 R^2 R2 越小,残差平方和越大


答案:C. R 2 R^2 R2 越小,残差平方和大


二、多选题

题目9


9️⃣ 设 ε 1 , ε 2 , ⋯   , ε n \varepsilon_1,\varepsilon_2,\cdots,\varepsilon_n ε1,ε2,⋯,εn 表示相互独立且都服从 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2) 的随机变量,则下列哪些可化为线性模型:

  • A. Y i = β 1 + β 2 x i 2 + ε i , i = 1 , 2 , ⋯   , n Y_i=\beta_1+\beta_2x_i^2+\varepsilon_i,\ i=1,2,\cdots,n Yi=β1+β2xi2+εi, i=1,2,⋯,n ✅
  • B. Y i = β 1 + β 2 x i + ε i 2 , i = 1 , 2 , ⋯   , n Y_i=\beta_1+\beta_2x_i+\varepsilon_i^2,\ i=1,2,\cdots,n Yi=β1+β2xi+εi2, i=1,2,⋯,n
  • C. Y i = e β 1 e β 2 x i x i β 3 e ε i , i = 1 , 2 , ⋯   , n Y_i=e^{\beta_1}e^{\beta_2x_i}x_i^{\beta_3}e^{\varepsilon_i},\ i=1,2,\cdots,n Yi=eβ1eβ2xixiβ3eεi, i=1,2,⋯,n ✅
  • D. Y i = β 0 + β 1 e β 2 x i + ε i , i = 1 , 2 , ⋯   , n Y_i=\beta_0+\beta_1e^{\beta_2}x_i+\varepsilon_i,\ i=1,2,\cdots,n Yi=β0+β1eβ2xi+εi, i=1,2,⋯,n
  • E. Y i = ( ∑ j = 1 p β j x i j + ε i ) 1 / 3 , i = 1 , 2 , ⋯   , n Y_i=\left(\sum_{j=1}^p\beta_jx_{ij}+\varepsilon_i\right)^{1/3},\ i=1,2,\cdots,n Yi=(∑j=1pβjxij+εi)1/3, i=1,2,⋯,n ✅

判断"能否化为线性模型",核心看两点:

  • 能否通过变量替换,把模型写成 对参数线性
  • 误差项能否保持为 加性形式

下面逐项分析:

A 项 : Y i = β 1 + β 2 x i 2 + ε i Y_i=\beta_1+\beta_2x_i^2+\varepsilon_i Yi=β1+β2xi2+εi 虽然含有 x i 2 x_i^2 xi2,但它对参数 β 1 , β 2 \beta_1,\beta_2 β1,β2 仍然是线性的。只需把 z i = x i 2 z_i=x_i^2 zi=xi2   看作新的自变量,就得到标准线性模型。因此 A 正确。

B 项 Y i = β 1 + β 2 x i + ε i 2 Y_i=\beta_1+\beta_2x_i+\varepsilon_i^2 Yi=β1+β2xi+εi2 这里问题不在参数,而在误差项。 ε i 2 \varepsilon_i^2 εi2 已经不是均值为 0 的正态误差,也不是通常线性模型里的加性随机误差形式,所以不能视为标准线性模型。故 B 不正确。

C 项 Y i = e β 1 e β 2 x i x i β 3 e ε i Y_i=e^{\beta_1}e^{\beta_2x_i}x_i^{\beta_3}e^{\varepsilon_i} Yi=eβ1eβ2xixiβ3eεi两边取对数:

ln ⁡ Y i = β 1 + β 2 x i + β 3 ln ⁡ x i + ε i \ln Y_i=\beta_1+\beta_2x_i+\beta_3\ln x_i+\varepsilon_i lnYi=β1+β2xi+β3lnxi+εi

此时模型已经变成对参数线性、误差加性的形式,因此可化为线性模型。故 C 正确。

D 项 Y i = β 0 + β 1 e β 2 x i + ε i Y_i=\beta_0+\beta_1e^{\beta_2}x_i+\varepsilon_i Yi=β0+β1eβ2xi+εi 参数 β 1 \beta_1 β1 和 β 2 \beta_2 β2 以乘积且指数形式结合( β 1 e β 2 \beta_1 e^{\beta_2} β1eβ2)。无论进行何种坐标变换,都无法将 β 1 \beta_1 β1 和 β 2 \beta_2 β2 分解成独立的线性加和形式。这种模型被称为本质非线性模型。

E 项 Y i = ( ∑ j = 1 p β j x i j + ε i ) 1 / 3 Y_i=\left(\sum_{j=1}^p\beta_jx_{ij}+\varepsilon_i\right)^{1/3} Yi=(∑j=1pβjxij+εi)1/3 两边立方可得 Y i 3 = ∑ j = 1 p β j x i j + ε i Y_i^3=\sum_{j=1}^p\beta_jx_{ij}+\varepsilon_i Yi3=∑j=1pβjxij+εi,把 Y i 3 Y_i^3 Yi3 作为新的因变量后,就得到一个多元线性模型,因此 E 也正确。

综上,可化为线性模型的选项是 A、C、E


答案:A、C、E


三、填空题

题目10~11


🔟 用三种不同材料小球测定引力常数,实验结果如下表所示,试在 α = 0.01 \alpha=0.01 α=0.01 下检验不同小球对引力常数的测定有无显著影响?

上面方差分析表中自由度分别为: ___, ___, ___。

上题中若 α = 0.01 \alpha=0.01 α=0.01,查表得F分位数的值为 ___。

检验结果认为不同材质的球对引力常数测定的影响 ___。


这是一道典型的 单因素方差分析 填空题。

先看各组样本量: 钼:5 个、金:6 个、玻璃:5 个

因此总样本量为 n = 5 + 6 + 5 = 16 n=5+6+5=16 n=5+6+5=16,因素水平数为 k = 3 k=3 k=3

所以方差分析表中自由度分别为:

  • 小球(组间)自由度: k − 1 = 3 − 1 = 2 k-1=3-1=2 k−1=3−1=2
  • 误差(组内)自由度: n − k = 16 − 3 = 13 n-k=16-3=13 n−k=16−3=13
  • 总和自由度: n − 1 = 16 − 1 = 15 n-1=16-1=15 n−1=16−1=15

即 d = 2 , e = 13 , f = 15 d=2,\qquad e=13,\qquad f=15 d=2,e=13,f=15

题目已经给出检验统计量 F = 26.08 F=26.08 F=26.08,在显著性水平 α = 0.01 \alpha=0.01 α=0.01 下,应查 F 0.01 ( 2 , 13 ) F_{0.01}(2,13) F0.01(2,13)。查表或计算可得

F 0.01 ( 2 , 13 ) ≈ 6.70 F_{0.01}(2,13)\approx 6.70 F0.01(2,13)≈6.70

因为 26.08 > 6.70 26.08>6.70 26.08>6.70,所以拒绝原假设,认为不同材料的小球对引力常数测定的影响 显著


答案:

自由度分别为: 2 , 13 , 15 2,13,15 2,13,15

F F F 分位数的值为: 6.70 6.70 6.70

检验结果:不同材质的小球对引力常数测定的影响 显著


1️⃣1️⃣ 今型号的电池分别为甲、乙、丙三个工厂所生产,为评比其质量各随机抽 5 只电池为样本,测其寿命(小时)如下:

甲: 40 , 48 , 38 , 42 , 45 40,\ 48,\ 38,\ 42,\ 45 40, 48, 38, 42, 45

乙: 26 , 34 , 30 , 28 , 32 26,\ 34,\ 30,\ 28,\ 32 26, 34, 30, 28, 32

丙: 39 , 40 , 43 , 50 , 50 39,\ 40,\ 43,\ 50,\ 50 39, 40, 43, 50, 50

试在显著性水平 α = 0.05 \alpha=0.05 α=0.05 下检验电池的平均寿命有无显著差异。

根据题中数据做方差分析表,得 S A = ‾ , S E = ‾ S_A=\underline{\qquad},\qquad S_E=\underline{\qquad} SA=,SE=


这是一道单因素方差分析计算题,其中因素是 厂家 ,指标是 电池寿命

先求各组均值:

x ˉ 1 = 40 + 48 + 38 + 42 + 45 5 = 42.6 \bar{x}_1=\frac{40+48+38+42+45}{5}=42.6 xˉ1=540+48+38+42+45=42.6

x ˉ 2 = 26 + 34 + 30 + 28 + 32 5 = 30 \bar{x}_2=\frac{26+34+30+28+32}{5}=30 xˉ2=526+34+30+28+32=30

x ˉ 3 = 39 + 40 + 43 + 50 + 50 5 = 44.4 \bar{x}_3=\frac{39+40+43+50+50}{5}=44.4 xˉ3=539+40+43+50+50=44.4

总均值为

x ˉ = 40 + 48 + 38 + 42 + 45 + 26 + 34 + 30 + 28 + 32 + 39 + 40 + 43 + 50 + 50 15 = 39 \bar{x}=\frac{40+48+38+42+45+26+34+30+28+32+39+40+43+50+50}{15}=39 xˉ=1540+48+38+42+45+26+34+30+28+32+39+40+43+50+50=39

组间平方和为

S A = ∑ i = 1 k n i ( x ˉ i − x ˉ ) 2 S_A=\sum_{i=1}^k n_i(\bar{x}_i-\bar{x})^2 SA=i=1∑kni(xˉi−xˉ)2

代入数据得

S A = 5 ( 42.6 − 39 ) 2 + 5 ( 30 − 39 ) 2 + 5 ( 44.4 − 39 ) 2 S_A=5(42.6-39)^2+5(30-39)^2+5(44.4-39)^2 SA=5(42.6−39)2+5(30−39)2+5(44.4−39)2

= 5 × 3.6 2 + 5 × ( − 9 ) 2 + 5 × 5.4 2 =5\times 3.6^2+5\times (-9)^2+5\times 5.4^2 =5×3.62+5×(−9)2+5×5.42

= 64.8 + 405 + 145.8 = 615.6 =64.8+405+145.8=615.6 =64.8+405+145.8=615.6

误差平方和为

S E = ∑ i = 1 k ∑ j = 1 n i ( x i j − x ˉ i ) 2 S_E=\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij}-\bar{x}_i)^2 SE=i=1∑kj=1∑ni(xij−xˉi)2

分别计算三组组内离差平方和后相加,可得

S E = 216.4 S_E=216.4 SE=216.4

所以方差分析表中应填写:

S A = 615.6 , S E = 216.4 S_A=615.6,\qquad S_E=216.4 SA=615.6,SE=216.4


答案:

S A = 615.6 S_A=615.6 SA=615.6

S E = 216.4 S_E=216.4 SE=216.4


四、判断题

题目12~14


1️⃣2️⃣ 在多元线性回归分析的检验中,只要检验回归方程的系数即可,不需要检验回归方程的显著性。

  • A. 对
  • B. 错 ✅

在多元线性回归分析中,通常既要检验 回归方程整体是否显著 ,也要检验 各个回归系数是否显著

这是两个不同层面的检验:

  • 回归方程的显著性检验:考察自变量整体对因变量是否有线性影响
  • 回归系数的显著性检验:考察某一个具体自变量的影响是否显著

因此不能只检验回归系数,而不检验回归方程整体显著性。


答案:B. 错


1️⃣3️⃣ 把一批同种纱线袜放在不同温度的水中洗涤,进行收缩率试验。水温分为 6 个水平,每个水平下各洗 4 只袜子,袜子的收缩率以百分数记,题目给出了方差分析表:

温度平方和 = 55.54 , 误差平方和 = 56.73 , 总平方和 = 112.27 \text{温度平方和}=55.54,\quad \text{误差平方和}=56.73,\quad \text{总平方和}=112.27 温度平方和=55.54,误差平方和=56.73,总平方和=112.27

温度自由度 = 5 , 误差自由度 = 18 , 总自由度 = 23 \text{温度自由度}=5,\quad \text{误差自由度}=18,\quad \text{总自由度}=23 温度自由度=5,误差自由度=18,总自由度=23

F = 3.52 , F 0.95 ( 5 , 18 ) = 2.77 F=3.52,\qquad F_{0.95}(5,18)=2.77 F=3.52,F0.95(5,18)=2.77

并据此得出"不同洗涤水温对袜子的收缩率有显著影响"的结论。判断对错。

  • A. 对 ✅
  • B. 错

这是一道单因素方差分析判断题。

题目已经给出检验统计量

F = 3.52 F=3.52 F=3.52

以及临界值

F 0.95 ( 5 , 18 ) = 2.77 F_{0.95}(5,18)=2.77 F0.95(5,18)=2.77

因为

3.52 > 2.77 3.52>2.77 3.52>2.77

所以应当拒绝原假设,说明不同温度下袜子收缩率的总体均值不全相同,即洗涤水温对袜子收缩率有显著影响。

因此题目最后给出的结论是正确的。


答案:A. 对


1️⃣4️⃣ 在多元线性回归分析的检验中,只要回归方程显著,回归方程的每个系数都是显著的。

  • A. 对
  • B. 错 ✅

回归方程整体显著,只能说明 自变量整体上 对因变量有显著线性影响。

这并不意味着每一个回归系数都一定显著。实际中可能出现:

  • 方程整体显著
  • 但某些单个系数由于多重共线性或样本波动,并不显著

所以"整体显著"与"每个系数都显著"不是同一个结论,不能混为一谈。


答案:B. 错


题目15~16


1️⃣5️⃣ 方差分析表中,组间平方和反应因子各水平间的差异,与实验误差无关。

  • A. 对
  • B. 错 ✅

在方差分析中,总离差平方和通常分解为

S T = S A + S E S_T=S_A+S_E ST=SA+SE

其中

  • S A S_A SA 表示组间平方和
  • S E S_E SE 表示误差平方和

在方差分析(ANOVA)中,组间平方和( S S A SS_A SSA 或 S S B e t w e e n SS_{Between} SSBetween) 确实反映了因子各水平间的差异,但它并不是"与实验误差无关"的。

组间平方和的构成: 它包含了随机误差(由于抽样波动引起的误差)和因子效应(不同水平导致的处理效应)。

期望均方角度: 组间均方( M S A MS_A MSA)的期望值 E ( M S A ) = σ 2 + Q E(MS_A) = \sigma^2 + Q E(MSA)=σ2+Q(其中 σ 2 \sigma^2 σ2 是误差方差, Q Q Q 是处理效应的衡量)。因此,即便因子没有显著影响,组间平方和也会因为随机误差的存在而不为零。


答案:B. 错


1️⃣6️⃣ 多元线性回归模型中未知参数向量 β \beta β 的最小二乘估计是 β \beta β 的无偏估计。

  • A. 对 ✅
  • B. 错

在满足经典线性回归模型基本假设的条件下, Y = X β + ε , E ( ε ) = 0 Y=X\beta+\varepsilon,\qquad E(\varepsilon)=0 Y=Xβ+ε,E(ε)=0

最小二乘估计量为 β ^ = ( X T X ) − 1 X T Y \hat{\beta}=(X^\mathrm{T}X)^{-1}X^\mathrm{T}Y β^=(XTX)−1XTY

对它取期望可得 E ( β ^ ) = ( X T X ) − 1 X T E ( Y ) E(\hat{\beta})=(X^\mathrm{T}X)^{-1}X^\mathrm{T}E(Y) E(β^)=(XTX)−1XTE(Y)

又因为 E ( Y ) = X β E(Y)=X\beta E(Y)=Xβ,所以 E ( β ^ ) = ( X T X ) − 1 X T X β = β E(\hat{\beta})=(X^\mathrm{T}X)^{-1}X^\mathrm{T}X\beta=\beta E(β^)=(XTX)−1XTXβ=β

因此最小二乘估计 β ^ \hat{\beta} β^ 是参数向量 β \beta β 的无偏估计。


答案:A. 对


相关推荐
wuweijianlove8 小时前
算法复杂度与工程性能的双重度量体系技术7
算法
小年糕是糕手8 小时前
【C/C++刷题集】栈、stack、队列、queue核心精讲
c语言·开发语言·数据结构·数据库·c++·算法·蓝桥杯
隔壁大炮8 小时前
CNN图像分类案例
人工智能·pytorch·python·深度学习·算法·分类·cnn
始三角龙8 小时前
LeetCode hoot 100 -- 最小覆盖子串
算法·leetcode·职场和发展
小年糕是糕手8 小时前
【C/C++刷题集】顺序表、vector、链表、list核心精讲
c语言·开发语言·数据结构·c++·算法·leetcode·蓝桥杯
天上的光8 小时前
算法——概述
算法
水木流年追梦8 小时前
CodeTop Top 300 热门题目10-验证IP地址
python·网络协议·tcp/ip·算法·leetcode
样例过了就是过了8 小时前
LeetCode热题100 乘积最大子数组
c++·算法·leetcode·动态规划
minji...8 小时前
Linux 线程同步与互斥(六) 线程安全与重入问题,死锁,线程done
linux·运维·开发语言·数据库·c++·算法·安全
wayz118 小时前
Day 16 编程实战:PCA主成分分析与技术指标降维
人工智能·算法·机器学习