机器学习与模式识别第十章逻辑回归2 考点压缩

第十章：Logistic Regression (2) --- Multi-Class & Model Evaluation --- 知识点笔记

综合来源：Lecture 10 PDF（30页）、课堂笔记（CSDN）

占位图

10.1 多分类 ⭐

两种朴素方法

方法	策略	分类器数量
One-vs-Rest (OvR)	每类一个二分类器（该类 vs 其余）	K个
One-vs-One (OvO)	每对类一个二分类器	K(K-1)/2个

Softmax函数 ⭐⭐

问题：将K个分数(logits) a1,...,aKa_1,\ldots,a_Ka1,...,aK 转为概率分布

推导：对任意两类i,j：

ln⁡pipj=ai−aj\ln\frac{p_i}{p_j} = a_i - a_jlnpjpi=ai−aj

加上归一化约束 ∑kpk=1\sum_k p_k = 1∑kpk=1：

pk=eak∑j=1Keaj--- Softmax函数p_k = \frac{e^{a_k}}{\sum_{j=1}^{K} e^{a_j}} \quad \text{--- Softmax函数}pk=∑j=1Keajeak--- Softmax函数

ak=wkTxa_k = \mathbf{w}_k^T\mathbf{x}ak=wkTx（每类一个线性函数）
决策边界：wiTx=wjTx\mathbf{w}_i^T\mathbf{x} = \mathbf{w}_j^T\mathbf{x}wiTx=wjTx → (wi−wj)Tx=0(\mathbf{w}_i-\mathbf{w}_j)^T\mathbf{x} = 0(wi−wj)Tx=0

10.2 混淆矩阵 ⭐

	预测0	预测1
实际0	TN（真阴性）	FP（假阳性）
实际1	FN（假阴性）	TP（真阳性）

混淆矩阵依赖于：分类器 + 数据集 + 概率阈值

10.3 评估指标 ⭐⭐

Accuracy（准确率）

Accuracy=TP+TNN\text{Accuracy} = \frac{TP + TN}{N}Accuracy=NTP+TN

陷阱：类别极度不均衡时无效！

100封邮件5封垃圾→全预测"非垃圾"→准确率95%→但垃圾全漏！

Precision（精确率/查准率）⭐

Precision=TPTP+FP=TPP\text{Precision} = \frac{TP}{TP + FP} = \frac{TP}{P}Precision=TP+FPTP=PTP

所有预测为正的样本中，真正为正的比例。惩罚FP。

Recall（召回率/查全率）⭐

Recall=TPTP+FN=TPActual 1s\text{Recall} = \frac{TP}{TP + FN} = \frac{TP}{\text{Actual 1s}}Recall=TP+FNTP=Actual 1sTP

所有真正为正的样本中，被正确检出的比例。惩罚FN。

Precision vs Recall 权衡

阈值	Precision	Recall	TP	FP
升高	↑	↓	不变或↓	↓
降低	↓	↑	↑	↑

Precision和Recall通常负相关→需权衡
FP和FN可能有不同的代价→需根据业务调整

F1 Score ⭐

F1=2×Precision×RecallPrecision+RecallF_1 = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}F1=Precision+Recall2×Precision×Recall

Precision和Recall的调和平均数
适用于类别不均衡场景
选择使F1最大的阈值

FPR和TPR

指标	公式	含义
FPR（假阳性率）	FPTN+FP\frac{FP}{TN+FP}TN+FPFP	实际为0中被错误预测为1的比例（越低越好）
TPR（真阳性率=Recall）	TPTP+FN\frac{TP}{TP+FN}TP+FNTP	实际为1中被正确检出的比例（越高越好）

10.4 ROC曲线与AUC ⭐

ROC曲线

横轴：FPR （假阳性率） | 纵轴：TPR（真阳性率）
不同阈值→不同(FPR, TPR)点→连成ROC曲线
阈值低→FPR高+TPR高 | 阈值高→FPR低+TPR低
左上角(0,1)→完美分类器

AUC（Area Under Curve）

AUC=1：完美分类器
AUC=0.5：随机猜测
真实分类器：AUC在0.5~1之间
AUC不依赖具体阈值→衡量分类器的整体排序能力

10.5 阈值选择策略

遍历阈值法

训练模型→对验证集预测概率
对T=0.01, 0.02, ..., 0.99：
- 概率转0/1预测→计算指标
选使目标指标最优的T

选择标准

一般任务→最大化F1或Accuracy
不等代价→最小化期望损失（结合损失矩阵）

笔记中的图片索引

序号	图片内容描述	来源位置
图1	One-vs-Rest vs One-vs-One对比	Lecture 10 第4页
图2	混淆矩阵示意图	Lecture 10 第9页
图3	阈值对TP的影响	Lecture 10 第15页
图4	Precision-Recall曲线	Lecture 10 第21页
图5	ROC曲线与AUC	Lecture 10 第25-27页

笔记整理时间：2026年6月28日

机器学习与模式识别 第十章 逻辑回归2 考点压缩