机器学习与模式识别 第九章 逻辑回归1 模拟卷及答案

第九章:Logistic Regression (1) --- 单元习题

总分:100分 | 建议用时:60分钟

范围:分类任务、Sigmoid函数、逻辑回归模型、交叉熵损失


占位图

一、单项选择题(每题2分,共20题,40分)

1. 二分类任务中,逻辑回归的输出P(y=1∣x)P(y=1|\mathbf{x})P(y=1∣x)的取值范围是?

A. (−∞,+∞)(-\infty, +\infty)(−∞,+∞)

B. 0,10, 10,1

C. (0,1)(0, 1)(0,1)

D. {0,1}\{0, 1\}{0,1}

2. 为什么不能直接用最小二乘做分类?

A. 计算太慢

B. MSE在分类参数空间非凸+输出范围不匹配+隐含高斯假设不成立

C. 线性模型不能用于分类

D. 数据太多

3. Sigmoid函数 σ(t)=11+e−t\sigma(t)=\frac{1}{1+e^{-t}}σ(t)=1+e−t1 的导数 σ′(t)\sigma'(t)σ′(t) 等于?

A. σ(t)\sigma(t)σ(t)

B. σ(t)(1−σ(t))\sigma(t)(1-\sigma(t))σ(t)(1−σ(t))

C. 1−σ(t)1-\sigma(t)1−σ(t)

D. σ(t)2\sigma(t)^2σ(t)2

4. Sigmoid函数的对称性表现为?

A. σ(−t)=σ(t)\sigma(-t) = \sigma(t)σ(−t)=σ(t)

B. σ(−t)=1−σ(t)\sigma(-t) = 1 - \sigma(t)σ(−t)=1−σ(t)

C. σ(−t)=−σ(t)\sigma(-t) = -\sigma(t)σ(−t)=−σ(t)

D. σ(−t)=σ(t)−1\sigma(-t) = \sigma(t) - 1σ(−t)=σ(t)−1

5. 逻辑回归属于什么类型的模型?

A. 生成模型

B. 判别模型(直接建模P(y∣x)P(y|\mathbf{x})P(y∣x))

C. 无监督模型

D. 强化学习模型

6. 逻辑回归的决策边界是?

A. 曲线

B. 圆

C. 线性超平面 wTx=0\mathbf{w}^T\mathbf{x}=0wTx=0

D. 随机边界

7. 逻辑回归中MSE不适合做损失函数,因为MSE在逻辑回归参数空间中是?

A. 凸函数

B. 有解析解

C. 非凸函数(有多个局部最小值)

D. 线性函数

8. 交叉熵损失的"无界惩罚"特性意味着?

A. 对所有错误同等惩罚

B. 当预测概率与真实标签完全相反时,损失趋向无穷大

C. 损失永远不会超过1

D. 不需要正则化

9. 逻辑回归的负对数似然等价于?

A. MSE

B. 交叉熵损失

C. MAE

D. Hinge损失

10. 逻辑回归的交叉熵损失是凸函数,意味着?

A. 有多个局部最优解

B. 梯度下降可能找不到解

C. 只有一个全局最小值,梯度下降保证收敛到全局最优

D. 无法使用梯度下降

11. 关于逻辑回归的优化,正确的是?

A. 有闭式解

B. 无闭式解,需用梯度下降等迭代方法

C. 可以直接用正规方程

D. 不需要优化

12. Sigmoid函数中参数AAA增大(σ(At)\sigma(At)σ(At))会导致?

A. 曲线更平缓

B. 曲线水平压缩→更陡峭→接近阶跃函数

C. 决策边界消失

D. 输出范围改变

13. 基函数ϕ(x)\phi(\mathbf{x})ϕ(x)在逻辑回归中的作用是?

A. 仅用于装饰

B. 将非线性可分数据映射到线性可分空间→使线性决策边界有效

C. 替代Sigmoid函数

D. 消除正则化

14. 线性可分数据上无正则化逻辑回归的问题是什么?

A. 训练误差始终很高

B. 权重无限增大→Sigmoid退化为阶跃→过拟合

C. 无法计算梯度

D. 输出始终为0.5

15. 交叉熵损失中,真实t=1t=1t=1、预测p→0p\to0p→0时,损失如何?

A. 趋近于0

B. 等于1

C. 趋近于无穷大(−ln⁡p→∞-\ln p \to \infty−lnp→∞)

D. 等于0.5

16. 逻辑回归模型本质上是?

A. 线性模型直接输出类别

B. 线性模型+Sigmoid非线性变换→输出概率

C. 非线性回归模型

D. 树模型

17. 决策边界wTx=0\mathbf{w}^T\mathbf{x}=0wTx=0上,P(y=1∣x)P(y=1|\mathbf{x})P(y=1∣x)等于?

A. 0

B. 1

C. 0.5

D. 不确定

18. 分类问题中,什么叫"拒绝选项"(Rejection Option)?

A. 拒绝所有预测

B. 当后验概率不够确信时拒绝做出决定

C. 拒绝使用Sigmoid

D. 拒绝正则化

19. 逻辑回归中,权重www的大小决定了什么?

A. 决策边界的方向和Sigmoid曲线的陡峭程度

B. 仅决策边界的方向

C. 仅数据量

D. 不决定任何东西

20. 正则化在逻辑回归中的作用不包括?

A. 防止权重无限增大

B. 将优化问题变为有闭式解

C. 防止过拟合

D. 在数据线性可分时保持模型泛化


二、判断题(每题2分,共15题,30分。正确打√,错误打×)

21. Sigmoid函数的值域是(-1, 1)。( )

22. 逻辑回归直接输出类别标签(0或1)。( )

23. σ′(t)=σ(t)(1−σ(t))\sigma'(t)=\sigma(t)(1-\sigma(t))σ′(t)=σ(t)(1−σ(t))是Sigmoid的导数,常用于梯度计算。( )

24. 最小二乘的隐含假设(高斯噪声)在二分类的二值数据上不成立。( )

25. 交叉熵损失是凸函数,MSE在逻辑回归中是非凸的。( )

26. 逻辑回归的MLE等价于最小化交叉熵损失。( )

27. 逻辑回归有闭式解,可以直接用正规方程求解。( )

28. 线性可分数据上加入正则化可以防止权重发散。( )

29. www很小→Sigmoid平缓→模型比较"犹豫";www很大→Sigmoid陡峭→模型非常"确信"。( )

30. 决策边界wTx=0\mathbf{w}^T\mathbf{x}=0wTx=0在特征空间中始终是一个二维平面。( )

31. TF-IDF加权可以替代BoW的原始词频计数。( )

32. 交叉熵损失对所有错误同等惩罚,不管错得有多离谱。( )

33. 逻辑回归可以被看作广义线性模型(GLM)的一种。( )

34. 期望损失最小化框架下,不同错误类型的代价可以不同。( )

35. 逻辑回归的梯度∇E=∑(σn−tn)xn\nabla E=\sum(\sigma_n-t_n)\mathbf{x}_n∇E=∑(σn−tn)xn,形式与线性回归梯度相似。( )


三、简答题(每题5分,共3题,15分)

36. 请说明为什么最小二乘(MSE)不适合做逻辑回归的损失函数(至少列出两个原因),以及交叉熵损失如何克服这些问题。

37. 请从最大似然估计(MLE)角度推导逻辑回归的交叉熵损失函数。为什么取负对数后得到交叉熵?

38. 逻辑回归的本质是什么?请解释"线性模型+Sigmoid→概率输出→决策"的完整流程,以及为什么www同时决定了"拟合线"和"分割线"。


四、计算题(每题5分,共3题,15分)

39. 某逻辑回归模型对样本x\mathbf{x}x的预测为P(y=1∣x)=σ(2.0)=0.8808P(y=1|\mathbf{x})=\sigma(2.0)=0.8808P(y=1∣x)=σ(2.0)=0.8808,真实标签t=1t=1t=1。

(1) 计算交叉熵损失贡献 −ln⁡(0.8808)-\ln(0.8808)−ln(0.8808)。

(2) 若预测错误为P(y=1∣x)=0.1P(y=1|\mathbf{x})=0.1P(y=1∣x)=0.1而真实t=1t=1t=1,计算交叉熵损失。对比两者说明交叉熵的惩罚特点。

参考:ln⁡(0.8808)≈−0.127\ln(0.8808)\approx-0.127ln(0.8808)≈−0.127,ln⁡(0.1)≈−2.303\ln(0.1)\approx-2.303ln(0.1)≈−2.303

40. 给定三个样本的逻辑回归预测概率和真实标签:

n P(y=1) t
1 0.9 1
2 0.3 0
3 0.8 1

计算平均交叉熵损失。

ln⁡(0.9)≈−0.105,ln⁡(0.1)≈−2.303,ln⁡(0.7)≈−0.357,ln⁡(0.2)≈−1.609,ln⁡(0.8)≈−0.223\ln(0.9)\approx-0.105, \ln(0.1)\approx-2.303, \ln(0.7)\approx-0.357, \ln(0.2)\approx-1.609, \ln(0.8)\approx-0.223ln(0.9)≈−0.105,ln(0.1)≈−2.303,ln(0.7)≈−0.357,ln(0.2)≈−1.609,ln(0.8)≈−0.223

41. 对于样本x\mathbf{x}x,wTx=0\mathbf{w}^T\mathbf{x}=0wTx=0时P(y=1∣x)P(y=1|\mathbf{x})P(y=1∣x)=?;wTx→+∞\mathbf{w}^T\mathbf{x}\to+\inftywTx→+∞时P(y=1∣x)→P(y=1|\mathbf{x})\toP(y=1∣x)→?;wTx→−∞\mathbf{w}^T\mathbf{x}\to-\inftywTx→−∞时P(y=1∣x)→P(y=1|\mathbf{x})\toP(y=1∣x)→?


试卷结束。 (参考ln⁡\lnln值已给出)

第九章:Logistic Regression (1) --- 单元习题答案


一、单项选择题答案

题号 答案 解析
1 C Sigmoid输出(0,1)(0,1)(0,1)开区间→不能精确=0或1
2 B 三个原因:非凸+有界惩罚+高斯噪声不适用于0/1标签
3 B σ′(t)=σ(t)(1−σ(t))\sigma'(t)=\sigma(t)(1-\sigma(t))σ′(t)=σ(t)(1−σ(t)),简洁且便于链式法则
4 B σ(−t)=1/(1+et)=1−σ(t)\sigma(-t)=1/(1+e^t)=1-\sigma(t)σ(−t)=1/(1+et)=1−σ(t)
5 B 判别模型直接建模P(y∣x)P(y|\mathbf{x})P(y∣x)(非生成模型建模P(x∣y)P(\mathbf{x}|y)P(x∣y))
6 C wTx=0\mathbf{w}^T\mathbf{x}=0wTx=0→线性超平面决策边界
7 C MSE+逻辑回归→非凸误差曲面→多个局部最小值
8 B 交叉熵无界:−ln⁡(p)→∞-\ln(p)\to\infty−ln(p)→∞ as p→0p\to0p→0→巨大惩罚
9 B 负对数似然−ln⁡L-\ln\mathcal{L}−lnL=交叉熵
10 C 凸函数→单一全局最小值→GD可收敛到最优解
11 B 梯度=0→非线性方程→无闭式解→需迭代优化
12 B AAA↑→σ(At)\sigma(At)σ(At)更陡→极端→近似阶跃函数
13 B 基函数→特征变换→非线性可分→线性可分
14 B 线性可分→www→∞→Sigmoid→阶跃→过拟合
15 C −ln⁡(0)→∞-\ln(0)\to\infty−ln(0)→∞→交叉熵对"完全错误"施加无限惩罚
16 B 线性模型+Sigmoid→概率输出→广义线性模型
17 C σ(0)=0.5\sigma(0)=0.5σ(0)=0.5→决策边界上概率恰好一半
18 B 拒绝选项=概率不够确信时拒绝决策
19 A www方向→决策边界方向;∣w∣|w|∣w∣→Sigmoid陡峭度
20 B 正则化不改变是否有闭式解→逻辑回归仍无闭式解

二、判断题答案

题号 答案 解析
21 × Sigmoid值域=(0,1)(0,1)(0,1),非(-1,1)
22 × 逻辑回归输出概率 P(y=1∣x)P(y=1|\mathbf{x})P(y=1∣x),需设阈值才得类别
23 σ′=σ(1−σ)\sigma'=\sigma(1-\sigma)σ′=σ(1−σ)是Sigmoid的关键性质
24 最小二乘→高斯噪声;标签0/1→伯努利分布→不匹配
25 交叉熵=凸;MSE在此处=非凸→关键区别
26 −ln⁡L-\ln\mathcal{L}−lnL=交叉熵
27 × ∇E=0\nabla E=0∇E=0→∑(σn−tn)xn=0\sum(\sigma_n-t_n)\mathbf{x}_n=0∑(σn−tn)xn=0→非线性→无闭式解
28 λ∣w∣2\lambda|w|^2λ∣w∣2→阻止w→∞w\to\inftyw→∞
29 ∣w∣|w|∣w∣小→Sigmoid平缓→"犹豫";∣w∣|w|∣w∣大→陡峭→"确信"
30 × 维度=特征空间维度-1(二维空间中是直线,三维中是平面)
31 TF-IDF=BoW的加权改进
32 × 交叉熵不等同惩罚:错得越离谱→损失越大(无界)
33 逻辑回归=GLM的一种(伯努利+logit链接)
34 期望损失最小化允许不同错误有不同代价
35 ∇E=∑(pn−tn)xn\nabla E=\sum(p_n-t_n)\mathbf{x}_n∇E=∑(pn−tn)xn→(pn−tn)(p_n-t_n)(pn−tn)=预测误差,与线性回归梯度形式一致

三、简答题参考答案

36. MSE vs 交叉熵

参考答案:

问题 MSE 交叉熵
凸性 ❌ 非凸→多个局部最小值→陷入局部优 →唯一全局最小值
惩罚大小 ❌ 有界(≤1)→对"错得离谱"惩罚不足 无界 →t=1,p→0t=1,p\to0t=1,p→0时−ln⁡p→∞-\ln p\to\infty−lnp→∞
数学来源 高斯噪声假设→不适用于0/1数据 伯努利分布MLE→天然匹配分类任务

37. MLE推导交叉熵

参考答案:

标签tn∈{0,1}t_n\in\{0,1\}tn∈{0,1}服从伯努利分布:

p(tn∣xn,w)=σ(wTxn)tn(1−σ(wTxn))1−tnp(t_n|\mathbf{x}_n,\mathbf{w}) = \sigma(\mathbf{w}^T\mathbf{x}_n)^{t_n}(1-\sigma(\mathbf{w}^T\mathbf{x}_n))^{1-t_n}p(tn∣xn,w)=σ(wTxn)tn(1−σ(wTxn))1−tn

似然 :p(t∣w)=∏np(tn∣xn,w)p(\mathbf{t}|\mathbf{w})=\prod_n p(t_n|\mathbf{x}_n,\mathbf{w})p(t∣w)=∏np(tn∣xn,w)

取负对数

E(w)=−ln⁡p(t∣w)=−∑ntnln⁡σn+(1−tn)ln⁡(1−σn)E(\mathbf{w})=-\ln p(\mathbf{t}|\mathbf{w})=-\sum_nt_n\\ln\\sigma_n+(1-t_n)\\ln(1-\\sigma_n)E(w)=−lnp(t∣w)=−n∑tnlnσn+(1−tn)ln(1−σn)

这就是交叉熵损失!来源于MLE+伯努利噪声假设+取负对数。


38. 逻辑回归本质

参考答案:

完整流程

输入x→线性组合wTx→Sigmoidσ→概率P(y=1∣x)→阈值决策→类别\text{输入}\mathbf{x} \to \text{线性组合}\mathbf{w}^T\mathbf{x} \to \text{Sigmoid}\sigma \to \text{概率}P(y=1|\mathbf{x}) \to \text{阈值决策}\to\text{类别}输入x→线性组合wTx→Sigmoidσ→概率P(y=1∣x)→阈值决策→类别

www的双重身份

  • www方向 →决策边界wTx=0\mathbf{w}^T\mathbf{x}=0wTx=0的方向和位置
  • ∥w∥\|w\|∥w∥大小 →Sigmoid曲线的陡峭程度
    • ∥w∥\|w\|∥w∥小→Sigmoid平缓→模型"犹豫"→输出概率接近0.5
    • ∥w∥\|w\|∥w∥大→∞→Sigmoid陡峭→模型"确信"→概率趋近0/1

四、计算题参考答案

39. 交叉熵计算

(1) t=1,p=0.8808t=1, p=0.8808t=1,p=0.8808:

E=−ln⁡(0.8808)=−(−0.127)=0.127E = -\ln(0.8808) = -(-0.127) = \mathbf{0.127}E=−ln(0.8808)=−(−0.127)=0.127

预测准确→损失很小。

(2) t=1,p=0.1t=1, p=0.1t=1,p=0.1:

E=−ln⁡(0.1)=−(−2.303)=2.303E = -\ln(0.1) = -(-2.303) = \mathbf{2.303}E=−ln(0.1)=−(−2.303)=2.303

对比 :预测完全相反→损失从0.127→2.303,增大18倍 !交叉熵对"错得离谱"的惩罚远超MSE(MSE仅(1−0.1)2=0.81(1-0.1)^2=0.81(1−0.1)2=0.81)。


40. 平均交叉熵

n P(y=1) t 交叉熵贡献
1 0.9 1 −ln⁡(0.9)=0.105-\ln(0.9)=0.105−ln(0.9)=0.105
2 0.3 0 −ln⁡(0.7)=0.357-\ln(0.7)=0.357−ln(0.7)=0.357 (因为t=0t=0t=0→用1−p=0.71-p=0.71−p=0.7)
3 0.8 1 −ln⁡(0.8)=0.223-\ln(0.8)=0.223−ln(0.8)=0.223

Avg CE=0.105+0.357+0.2233=0.6853≈0.228\text{Avg CE} = \frac{0.105+0.357+0.223}{3} = \frac{0.685}{3} \approx \mathbf{0.228}Avg CE=30.105+0.357+0.223=30.685≈0.228


41. Sigmoid极限值

  • wTx=0  ⟹  σ(0)=0.5\mathbf{w}^T\mathbf{x}=0 \implies \sigma(0) = \mathbf{0.5}wTx=0⟹σ(0)=0.5
  • wTx→+∞  ⟹  σ(+∞)→1\mathbf{w}^T\mathbf{x}\to+\infty \implies \sigma(+\infty) \to \mathbf{1}wTx→+∞⟹σ(+∞)→1
  • wTx→−∞  ⟹  σ(−∞)→0\mathbf{w}^T\mathbf{x}\to-\infty \implies \sigma(-\infty) \to \mathbf{0}wTx→−∞⟹σ(−∞)→0

恰好对应概率三态:完全不确定(0.5)、确定正类(1)、确定负类(0)。


答案编制完成时间:2026年6月28日