过了一遍第三章，大致理解了内容，认识了线性回归模型，对数几率回归模型，线性判别分析方法，以及多分类学习，其中有很多数学推理过程以参考他人现有思想为主，没有亲手去推。

术语学习

线性模型 linear model

非线性模型 nonlinear model

可解释性 comprehensibility

可理解性 understandability

线性回归 linear regression

均方误差 square loss

欧氏距离 Euclidean distance

最小二乘法 least square method

参数估计 parameter estimation

闭式 closed-form

多元线性回归 multivariate linear regression

满秩矩阵 full-rank matrix

正定矩阵 positive definite matrix

正则化 regularization

对数线性回归 log-linear regression

广义线性模型 generalized linear model

联系函数 link function

单位阶跃函数 unit-step function

替代函数 surrogate function

对数几率函数 logistic function

几率 odds

对数几率 log odds

对数几率回归 logistic regression

极大似然法 maximum likelihood method

对数似然 log-likelihood

梯度下降法 gradient descent method

牛顿法 Newton method

线性判别分析 Linear Discriminant Analysis

类内散度矩阵 within-class scatter matrix

类间散度矩阵 between-class scatter matrix

广义瑞利商 generalized Rayleigh quotient

迹 trace

分类器 classifier

拆分策略一对一 OvO One vs. One

一对其余 OvR One vs. Rest

多对多 MvM Many vs. Many

纠错输出码 ECOC Error Correcting Output Codes

编码矩阵 coding matrix

类别不平衡 class-imbalance

再缩放 rescaling

再平衡 rebalance

欠采样 undersampling

下采样 downsampling

过采样 oversampling

上采样 upsampling

阈值移动 threshold-moving

代价敏感学习 cost-sensitive learning

稀疏表示 sparse representation

稀疏性 sparsity

多标记学习 multi-label learning

3.1 试析在什么情形下式 (3.2) 中不必考虑偏置项 b.

可以理解的解释：

f ( x ) = w i x i f(x)=w_{i}x_{i} f(x)=wixi始终经过原点，b=0，可以不考虑
考虑输出 f ( x ) f(x) f(x)和 x x x的变化关系时，不考虑
当两个线性模型相减时，消除了b。可用训练集中每个样本都减去第一个样本，然后对新的样本做线性回归，不用考虑偏置项b。

3.2 试证明，对于参数 ω，对率回归的目标函数 (3.18)是非凸的，但其对数似然函数 (3.27)是凸的.

对实数集上的函数，可通过求二阶导数来判别：若二阶导数在区间上非负，则称为凸函数；若二阶导数在区间上恒大于 0，则称为严格凸函数。

对率回归的目标函数 (3.18)是非凸的证明

式 3.18 ，其一阶导 ∂ y ∂ w = x ( y − y 2 ) \frac{\partial{y}}{\partial{w}}=x(y-y^{2}) ∂w∂y=x(y−y2)

二阶导 ∂ 2 y ∂ w ∂ w T = x x T y ( 1 − y ) ( 1 − 2 y ) \frac{\partial^{2}{y}}{\partial{w}\partial{w^{T}}}=xx^{T}y(1-y)(1-2y) ∂w∂wT∂2y=xxTy(1−y)(1−2y)（即海森矩阵），

其中 x x T xx^{T} xxT 秩为1，非零特征值只有一个，其正负号取决于 y ( 1 − y ) ( 1 − 2 y ) y(1-y)(1-2y) y(1−y)(1−2y) ，显然当 y y y在(0.5,1)之间变化时，特征值为负，于是3.18式关于 w w w 的海森矩阵非半正定，因此非凸。

对数似然函数 (3.27)是凸的证明参考南瓜书

3.3 编程实现对率回归，并给出西瓜数据集 3.0α 上的结果.

（待补充）

3.4 选择两个 UCI 数据集，比较 10 折交叉验证法和留法所估计出的对率回归的错误率.

（待补充）

3.5 编辑实现线性判别分析，并给出西瓜数据集 3.0α 上的结果.

（待补充）

3.6 线性判别分析仅在线性可分数据上能获得理想结果?试设计一个改进方法，使其能较好地周于非线性可分数据

人们发展出一系列基于核函数的学习方法，统称为"核方法" (kernel methods). 最常见的，是通过"核化" (即引入核函数)来将线性学习器拓展为非线性学习器.下面我们以线性判别分析为例来演示如何通过核化来对其进行非线性拓展 7 从而得副"核线性判别分析" (Kernelized Linear Discriminant Analysis，简称 KLDA).

3.7 令码长为 9，类别数为 4，试给出海明距离意义下理论最优的 ECOC二元码井证明之.

"海明距离"是指两个码对应位置不相同的个数。

参考链接论文提到的，"假设任意两个类别之间最小的海明距离为 d ，那么此纠错输出码最少能矫正 [ d − 1 2 ] \left[ \frac{d-1}{2} \right] [2d−1] 位的错误。可以用下图解释。

--	f0	f1	f2	f3	f4	f5	f6	f7	f8
c1	1	1	1	1	1	1	1	1	0
c2	0	0	0	0	1	1	1	1	1
c3	0	0	1	1	0	0	1	1	1
c4	0	1	0	1	0	1	0	1	1

参考链接1--解题
 参考链接2--论文

3.8* ECOC 编码能起到理想纠错作用的重要条件是:在每一位编码上出错的概率相当且独立.试析多分类任务经 ECOC 编码后产生的二类分类器满足该条件的可能性及由此产生的影响.

西瓜书上标注的一句话

将多个类拆解为两个"类别子集"，不同拆解方式所形成的两个类别子集的区分难度往往不同，即其导致的二分类问题的难度不同；于是，一个理论纠错牲质很好、但导致的二分类问题较难的编码，与另一

个理论纠错性质差一些、但导致的二分类问题较简单的编码，最终产生的模型性能孰强孰弱很难说。

3.9 使用 OvR 和 MvM 将多分类任务分解为二分类任务求解时，试述为何无需专门针对类别不平衡性进行处理.

对 OvR 、 MvM 来说，由于对每个类进行了相同的处理，其拆解出的二分类任务中类别不平衡的影响会相互抵消，因此通常不需专门处理.

3.10* 试推导出多分类代价敏感学习(仅考虑基于类别的误分类代价)使用"再缩放"能获得理论最优解的条件.

参考链接1--解题

【机器学习】西瓜书学习心得及课后习题参考答案—第3章线性模型

术语学习

3.1 试析在什么情形下式 (3.2) 中不必考虑偏置项 b.

3.2 试证明，对于参数 ω，对率回归的目标函数 (3.18)是非凸的，但其对数似然函数 (3.27)是凸的.

3.3 编程实现对率回归，并给出西瓜数据集 3.0α 上的结果.

3.4 选择两个 UCI 数据集，比较 10 折交叉验证法和留 法所估计出的对率回归的错误率.

3.5 编辑实现线性判别分析，并给出西瓜数据集 3.0α 上的结果.

3.6 线性判别分析仅在线性可分数据上能获得理想结果?试设计一个改进方法，使其能较好地周于非线性可分数据

3.7 令码长为 9，类别数为 4，试给出海明距离意义下理论最优的 ECOC二元码井证明之.

3.8* ECOC 编码能起到理想纠错作用的重要条件是:在每一位编码上出错的概率相当且独立.试析多分类任务经 ECOC 编码后产生的二类分类器满足该条件的可能性及由此产生的影响.

3.9 使用 OvR 和 MvM 将多分类任务分解为二分类任务求解时，试述为何无需专门针对类别不平衡性进行处理.

3.10* 试推导出多分类代价敏感学习(仅考虑基于类别的误分类代价)使用"再缩放"能获得理论最优解的条件.

3.4 选择两个 UCI 数据集，比较 10 折交叉验证法和留法所估计出的对率回归的错误率.