感知机的对偶形式是怎么来的

感知机的对偶形式是怎么来的:


1. 原始形式:老师亲自调整教案

想象你在教一个学生分类水果:

  • 原始形式 :你(老师)心中有一个"标准答案"(权重向量 www)
  • 看到学生把苹果误判为橘子:你直接修改你的"标准答案"
  • 每次错误都直接调整你的知识体系

特点:知识都储存在你(老师)的脑子里


2. 对偶形式:老师记下所有错题

现在换一种教学方法:

  • 你准备一个错题本,记录每个学生犯的错
  • 学生A把红苹果当橘子:在错题本上给"红苹果"记一笔
  • 学生B把青苹果当橘子:在错题本上给"青苹果"记一笔
  • ...
  • 最终考试时:遇到新水果,就拿出来跟错题本上的所有记录比较

数学表达
w=∑(错题次数)×(错题样本) w = \sum (\text{错题次数}) \times (\text{错题样本}) w=∑(错题次数)×(错题样本)
判断新样本=比较新样本与所有错题的相似度 \text{判断新样本} = \text{比较新样本与所有错题的相似度} 判断新样本=比较新样本与所有错题的相似度


3. 具体数学推导

原始更新规则:

w←w+αyixi(当 yi(w⋅xi)≤0) w \leftarrow w + \alpha y_i x_i \quad (\text{当 } y_i(w \cdot x_i) \leq 0) w←w+αyixi(当 yi(w⋅xi)≤0)

假设从 w0=0w_0 = 0w0=0 开始:

  • 第一次更新:w1=αy1x1w_1 = \alpha y_1 x_1w1=αy1x1
  • 第二次更新:w2=w1+αy2x2=αy1x1+αy2x2w_2 = w_1 + \alpha y_2 x_2 = \alpha y_1 x_1 + \alpha y_2 x_2w2=w1+αy2x2=αy1x1+αy2x2
  • ...
  • 第T次更新后:w=α∑i=1Tyixiw = \alpha \sum_{i=1}^T y_i x_iw=α∑i=1Tyixi

令 αi\alpha_iαi = 第i个样本被误分类的次数 × α
w=∑i=1Nαiyixi w = \sum_{i=1}^N \alpha_i y_i x_i w=i=1∑Nαiyixi


4. 为什么说这像"加权K近邻"?

决策函数变成:
f(x)=sign(w⋅x)=sign(∑i=1Nαiyi(xi⋅x)) f(x) = \text{sign}(w \cdot x) = \text{sign}\left( \sum_{i=1}^N \alpha_i y_i (x_i \cdot x) \right) f(x)=sign(w⋅x)=sign(i=1∑Nαiyi(xi⋅x))

解读

  • xi⋅xx_i \cdot xxi⋅x:新样本 xxx 与训练样本 xix_ixi 的相似度,点积就是相似度
  • αiyi\alpha_i y_iαiyi:样本 xix_ixi 的"投票权重"
  • 决策 = 所有训练样本的加权投票

5. 对偶形式的巨大价值

(1)核函数技巧的基石

原始形式:w⋅xw \cdot xw⋅x

对偶形式:∑αiyi(xi⋅x)\sum \alpha_i y_i (x_i \cdot x)∑αiyi(xi⋅x)

关键洞察 :把内积 xi⋅xx_i \cdot xxi⋅x 替换成核函数 K(xi,x)K(x_i, x)K(xi,x),就能处理非线性问题!

(2)支持向量的自然浮现

  • αi>0\alpha_i > 0αi>0 的样本就是支持向量
  • αi=0\alpha_i = 0αi=0 的样本对最终模型没有贡献
  • 自动实现了"只记住重要样本"

(3)更直观的解释性

每个预测都可以追溯到具体的训练样本:"我判断这个是苹果,因为它很像之前那几个被多次误分类的苹果"


6. 对偶形式 vs 原始形式的对比

特性 原始形式 (Primal) 对偶形式 (Dual)
参数存储 存储权重向量 w 存储对偶系数 alpha
决策函数 sign(w·x + b) sign(sum(alpha_i*y_i*(x_i·x)) + b)
更新规则 w += lr * y_i * x_i alpha_i += lr
支持向量 隐式 显式 (alpha_i > 0 的样本)
核技巧 困难 容易 (替换内积为核函数)

对偶形式打开了核方法的大门,让线性分类器能够处理极其复杂的非线性问题------这才是它真正的价值所在。

相关推荐
皮肤科大白19 小时前
PanDerm多模态皮肤科基础模型的核心创新与应用价值
人工智能·深度学习·机器学习
L-李俊漩19 小时前
神经网络梳理
神经网络·卷积神经网络·循环神经网络·前馈神经网络
枫叶林FYL19 小时前
【强化学习】8 AssistMimic:基于多智能体强化学习的物理 grounded 人际协助控制
人工智能·机器学习·架构
Black蜡笔小新19 小时前
企业级AI模型工作站DLTM深度学习推理工作站助力制造业迈入智能质检新时代
人工智能·深度学习
Yunzenn19 小时前
深度解析字节前沿研究-Cola DLM第 04 章:Cola DLM 架构全景 —— 三层解耦的设计哲学
java·linux·python·深度学习·面试·github·transformer
冬奇Lab19 小时前
每日一个开源项目 #110:ai-engineering-from-scratch - 从零构建 AI 工程全栈能力
人工智能·深度学习·llm
ujainu19 小时前
CANN pto-isa:Transformer 推理编译链路:从 PyTorch 到昇腾 NPU 执行
pytorch·深度学习·transformer·ascend
Zevalin爱灰灰19 小时前
智能控制 第四章——人工神经网络
神经网络·智能·控制算法
一切皆是因缘际会19 小时前
AI 从 “模仿智能” 到 “重构世界” 的范式跃迁
大数据·人工智能·深度学习·重构·架构
生成论实验室20 小时前
Token即事件:Transformer为何是“事件-关系网络”的最佳实现——兼论大语言模型如何从“概率鹦鹉”进化为“认知主体”
人工智能·深度学习·语言模型·agi·安全架构