神经网络之感知机（Perceptron）

1、回顾

1957年，弗兰克·罗森布拉特（Frank Rosenblatt）提出了感知机模型，他的工作证明了通过简单单元的互联和简单的学习规则，可以涌现出强大的智能行为，这一核心思想至今未变。

弗兰克·罗森布拉特（1928-1971）是一位美国心理学家和计算机科学家，他在康奈尔航空实验室工作。他深受早期神经科学研究（如沃伦·麦卡洛克和沃尔特·皮茨的神经元模型）和赫布学习理论的影响。他的目标不仅仅是构建一个模式识别机器，更是想通过机器模型来理解大脑的学习机制。

这是第一个可以从数据中学习并进行模式分类的算法模型，被公认为是人工神经网络的起点。感知机虽简单且有局限，但它标志着机器学习从逻辑推理走向连接主义（Connectionism）的新纪元。

2、核心思想

感知机模拟了生物神经元的基本工作原理：

1.输入 ：接收多个输入信号 w 1 、 w 2 、 w 2 . . . w n w_1、w_2、w_2...w_n w1、w2、w2...wn。这些输入可以是任何特征数据，比如图片的像素值、文本的词向量、样本的属性。
2.加强求和 ：每个输入都有一个对应的权重（ w 1 、 w 2 、 w 2 . . . w n w_1、w_2、w_2...w_n w1、w2、w2...wn），用于衡量每个输入特征对最终决策的影响程度。神经元计算所有输入与权重的乘积之和。
3.激活：将加权和与一个阈值（或偏置）进行比较，通过一个激活函数产生输出。

如果加权和＞阈值(threshold)，输出 1（代表"激活"或某一类）。
如果加权和 ≤ 阈值(threshold)，输出 0（代表"抑制"或另一类）。

权重的取值不是固定的，感知机的"学习过程"，本质上就是调整这些权重，让决策结果更准确。

3、数学表达

数学表达主要包括两个部分：加权求和 和 激活函数。

3.1加权求和（Linear Combination）

给定输入向量 x = [ x 1 , x 2 , ... , x n ] \mathbf{x} = [x_1, x_2, \dots, x_n] x=[x1,x2,...,xn]，权重向量 w = [ w 1 , w 2 , ... , w n ] \mathbf{w} = [w_1, w_2, \dots, w_n] w=[w1,w2,...,wn]，以及偏置项 b b b，感知机首先计算输入的加权和：

z = ∑ i = 1 n w i x i + b z = \sum_{i=1}^{n} w_i x_i + b z=i=1∑nwixi+b

也可以用向量内积的形式表示为：
z = w T x + b z = \mathbf{w}^T \mathbf{x} + b z=wTx+b

其中：

z z z 是线性组合的结果（净输入）；
w T x \mathbf{w}^T \mathbf{x} wTx 表示权重与输入的点积；
b b b 是偏置项，用于调整决策边界的位置。

3.2激活函数（Activation Function）

感知机通常使用阶跃函数（Step Function）作为激活函数。常见形式如下：

形式一：输出为 0 或 1

a = f ( z ) = { 1 , if z ≥ 0 0 , if z < 0 a = f(z) = \begin{cases} 1, & \text{if } z \geq 0 \\ 0, & \text{if } z < 0 \end{cases} a=f(z)={1,0,if z≥0if z<0

形式二：输出为 -1 或 1

a = f ( z ) = { 1 , if z ≥ 0 − 1 , if z < 0 a = f(z) = \begin{cases} 1, & \text{if } z \geq 0 \\ -1, & \text{if } z < 0 \end{cases} a=f(z)={1,−1,if z≥0if z<0

a a a 是感知机的最终输出。

完整表达式

感知机的整体输出可表示为：

a = f ( w T x + b ) 其中 f ( z ) = { 1 , z ≥ 0 0 ( 或 − 1 ) , z < 0 \boxed{ a = f(\mathbf{w}^T \mathbf{x} + b) \quad \text{其中} \quad f(z) = \begin{cases} 1, & z \geq 0 \\ 0 \ (\text{或 } -1), & z < 0 \end{cases} } a=f(wTx+b)其中f(z)={1,0 (或 −1),z≥0z<0

说明：

感知机适用于线性可分问题。

原始感知机使用不可导的阶跃函数，因此不能使用梯度下降直接训练；现代神经网络多采用 Sigmoid、ReLU 等可导激活函数。

感知机通过迭代更新权重和偏置来学习：

4、阈值（threshold）和偏置（bias）

在感知机模型中，阈值（Threshold） 和 偏置（Bias） 是密切相关的概念。虽然它们出现在不同的表达形式中，但实际上描述的是同一个机制的不同视角。

4.1阈值与偏置的数学关系

1.使用"阈值"的原始形式

早期感知机定义为：

y = { 1 , if ∑ i = 1 n w i x i ≥ θ 0 , otherwise y = \begin{cases} 1, & \text{if } \sum_{i=1}^n w_i x_i \geq \theta \\ 0, & \text{otherwise} \end{cases} y={1,0,if ∑i=1nwixi≥θotherwise

θ \theta θ：称为 阈值（threshold）
只有当加权输入之和达到或超过 θ \theta θ 时，神经元才被激活（输出 1）

2. 转换为"偏置"形式

将不等式变形：
∑ i = 1 n w i x i ≥ θ ⇒ ∑ i = 1 n w i x i − θ ≥ 0 \sum_{i=1}^n w_i x_i \geq \theta \quad \Rightarrow \quad \sum_{i=1}^n w_i x_i - \theta \geq 0 i=1∑nwixi≥θ⇒i=1∑nwixi−θ≥0

令：
b = − θ b = -\theta b=−θ

则上式变为：

∑ i = 1 n w i x i + b ≥ 0 \sum_{i=1}^n w_i x_i + b \geq 0 i=1∑nwixi+b≥0

此时感知机输出可写为：

y = { 1 , if w T x + b ≥ 0 0 , otherwise y = \begin{cases} 1, & \text{if } \mathbf{w}^T\mathbf{x} + b \geq 0 \\ 0, & \text{otherwise} \end{cases} y={1,0,if wTx+b≥0otherwise

✅ 所以我们得出关键结论：

b = − θ \boxed{b = -\theta} b=−θ

即：偏置 = 负的阈值

阈值 θ θ θ：输入需要超过的"门槛"

偏置 b b b：用于平移决策边界

4.2如何直观理解"偏置"？

偏置 b b b 的作用是调节神经元的激活难度，你可以把它看作一个"灵活性开关"或"决策门槛控制器"。

生活例子：是否去参加聚会？

假设你根据两个因素做决定：

x 1 = 1 x_1 = 1 x1=1：天气好
x 2 = 1 x_2 = 1 x2=1：好朋友去

对应权重：

w 1 = 0.6 w_1 = 0.6 w1=0.6：比较在意天气
w 2 = 0.8 w_2 = 0.8 w2=0.8：很在意朋友是否去

情况 1：无偏置（ b = 0 b = 0 b=0）

z = 0.6 x 1 + 0.8 x 2 z = 0.6x_1 + 0.8x_2 z=0.6x1+0.8x2

只要有一点理由就可能触发 → 容易去（低门槛）

情况 2：加上负偏置（ b = − 1.5 b = -1.5 b=−1.5）

z = 0.6 x 1 + 0.8 x 2 − 1.5 z = 0.6x_1 + 0.8x_2 - 1.5 z=0.6x1+0.8x2−1.5

即使天气好但朋友不去： 0.6 ( 1 ) + 0.8 ( 0 ) − 1.5 = − 0.9 < 0 0.6(1) + 0.8(0) - 1.5 = -0.9 < 0 0.6(1)+0.8(0)−1.5=−0.9<0 → 不去

👉 偏置越大（正值），越容易激活；偏置越小（负值），越难激活。

4.3几何意义：偏置控制决策边界的平移

在二维空间中，感知机的决策边界是一条直线：

w 1 x 1 + w 2 x 2 + b = 0 w_1 x_1 + w_2 x_2 + b = 0 w1x1+w2x2+b=0

权重 w \mathbf{w} w 决定这条线的 方向（法向量）
偏置 b b b 决定这条线离原点的 距离和平移方向

举例

b = 0 b=0 b=0：决策边界经过原点
b > 0 b>0 b>0 ：边界向输入空间负方向移动 → 更容易输出 1
b < 0 b<0 b<0 ：边界远离正区域 → 更难激活

✅ 类比考试及格线：

把及格线从 60 分降到 50 分 → 更多人通过（相当于 b b b 增大）

提高到 70 分 → 更严格（相当于 b b b 减小）