Binary Classification& sigmoid 函数的逻辑回归&Decision Boundary

一、Binary Classification（二元分类）

1.1 什么是二元分类？

二元分类是机器学习中一种分类任务，目标是将样本分为两个互斥的类别。

典型问题示例：
- 邮件是否为垃圾邮件？答案（标签y）只有 "no（不是）" 或 "yes（是）"。
- 交易是否欺诈？答案只有 "no（不是）" 或 "yes（是）"。
- 肿瘤是否恶性？答案只有 "no（不是）" 或 "yes（是）"。
标签的数值化：为了方便计算，通常把两个类别映射为0 和 1（比如 "no/false" 对应 0，"yes/true" 对应 1）。

1.2 如何用模型做二元分类？

我们可以用线性模型 fw,b(x)=wx+b（类似一次函数 y=kx+c）来预测，再通过阈值（Threshold）判断类别。

以 "肿瘤是否恶性" 为例，x 是肿瘤大小（直径，单位 cm），模型输出 fw,b(x)，然后用0.5 作为阈值判断：

如果 fw,b(x)<0.5，预测 y^=0（肿瘤为良性，"no"）；
如果 fw,b(x)≥0.5，预测 y^=1（肿瘤为恶性，"yes"）。

而决策边界（Decision Boundary）就是模型输出等于阈值的那条线。把输入空间分成两部分，分别对应两个类别。

"分类错误（misclassified）" 情况：有些实际为 1（恶性，红叉）的样本被分到了 0 的区域，或实际为 0（良性，蓝圈）的样本被分到了 1 的区域 ------ 这是模型需要优化的地方。

二、逻辑回归

2.1 逻辑回归的背景与需求

在分类问题中（比如判断肿瘤是否为恶性），我们需要模型的输出在 0 到 1 之间（表示 "属于某一类的概率"）。

以 "肿瘤大小（x，单位 cm）判断是否恶性（y）" 为例：
- y=1 表示 "恶性（yes）"，y=0 表示 "非恶性（no）"。
- 我们需要一个模型，输入 "肿瘤大小 x"，输出一个0 到 1 之间的数值，用来表示 "该肿瘤是恶性的概率"。

2.2 Sigmoid 函数（逻辑函数）

为了让输出落在 0 到 1 之间，我们引入 sigmoid 函数，公式为：

其中 z 是一个线性组合（后面会讲），g(z) 是 sigmoid 函数的输出。

2.3 Sigmoid 函数的形状与取值

直观理解（结合图像）

右侧的 sigmoid 函数图像中，横轴是z，纵轴是g(z)：

当z=100时，g(z)≈1；
当z=0时，g(z)=0.5；
当z=−100时，g(z)≈0。

2.4 逻辑回归模型：从输入到输出的过程

逻辑回归模型的核心是 **"线性组合 + sigmoid 函数"** 的组合，步骤如下：

1. 线性组合：

x 是输入特征（比如 "肿瘤大小"，如果是多特征还可以包含 "肿瘤密度" 等）；
w 是权重（每个特征对结果的 "重要程度"）；
b 是偏置（相当于线性函数的截距，控制模型的基准输出）；
z 是线性组合的结果，它是一个实数（可以是正、负或 0）。

2. 代入 sigmoid 函数：得到逻辑回归的预测输出

将z=w⋅x+b代入 sigmoid 函数g(z)，得到逻辑回归的模型：

2.5 逻辑回归输出的解释

模型输出fw,b(x)的含义是 "给定输入x和参数w,b时，y=1 的概率"，即：

因为概率总和为 1，所以 P(y=0∣x;w,b)=1−P(y=1∣x;w,b)；
举例：若fw,b(x)=0.7，则表示 "该肿瘤是恶性（y=1）的概率为 70%"。

2.6 总结

逻辑回归是一种分类算法，通过 "线性组合 + Sigmoid 函数" 的结构，让输出落在 0 到 1 之间，从而表示 "属于某一类的概率"。它的核心是 Sigmoid 函数的变形能力（把任意实数映射到 0-1 区间），以及对输出概率的可解释性（直接对应分类的置信度）。

三、**Decision Boundary（**决策边界）

要彻底理解决策边界（Decision Boundary）的概念，我们可以分线性决策边界 和非线性决策边界两个模块来拆解：

3.1 线性决策边界

逻辑回归中，当输入特征的组合是线性形式 时，决策边界是一条直线（二维场景）或平面（高维场景）。

1. 数学推导

逻辑回归的模型是 fw,b(x)=g(w⋅x+b)，其中 g(z) 是 sigmoid 函数。

当 z=w⋅x+b=0 时，g(z)=0.5（sigmoid 函数在z=0时输出 0.5）。
我们将 z=0 作为决策边界的判定条件 ：
- 若 z>0，则 g(z)>0.5，模型预测 y=1；
- 若 z<0，则 g(z)<0.5，模型预测 y=0。

2. 例子：二维线性决策边界

模型的线性组合为 z=x1+x2−3（即 w1=1,w2=1,b=−3）；
决策边界为 z=0，即 x1+x2−3=0，化简得 x1+x2=3（一条直线）。
图像中：
- 直线上方的样本（红叉）满足 x1+x2>3，即 z>0，模型预测 y=1；
- 直线下方的样本（蓝圈）满足 x1+x2<3，即 z<0，模型预测 y=0。

3.2 非线性决策边界

现实中很多分类问题不是 "线性可分" 的（即无法用直线 / 平面分开两类样本），此时需要引入非线性特征组合 （如平方项、交叉项、高次项等），从而得到非线性的决策边界（曲线、椭圆、更复杂的形状）。

1. 例子：圆形决策边界

模型的线性组合包含特征的平方项：z=x12+x22−1（即 w1=1,w2=1,b=−1，这里的 "线性组合" 是对 "非线性特征（x12,x22）" 的线性加权）；
决策边界为 z=0，即 x12+x22−1=0，化简得 x12+x22=1（一个以原点为圆心、半径为 1 的圆）。
图像中：
- 圆内的样本（蓝圈）满足 x12+x22<1，即 z<0，模型预测 y=0；
- 圆外的样本（红叉）满足 x12+x22>1，即 z>0，模型预测 y=1。

2. 更复杂的非线性决策边界

当引入更多非线性特征（如三次项 x13、交叉项 x1x2、二次项 x22 等）时，决策边界可以是椭圆、不规则曲线等更复杂的形状。

模型的线性组合形式为：
决策边界由 z=0 决定，形状由这些非线性特征的组合方式决定（比如含 x12 和 x22 且系数不同时，会形成椭圆）。

3.3 总结

决策边界是逻辑回归（或其他分类模型）用来区分不同类别样本的 "分界线"：

当特征是线性组合时，决策边界是直线 / 平面（线性决策边界）；
当引入非线性特征（如平方项、高次项、交叉项）时，决策边界可以是曲线、圆、椭圆等复杂形状（非线性决策边界）。