《图解机器学习-第六章》：线性回归和逻辑回归：最简单但最重要的机器学习模型

🎯 博主简介

CSDN 「新星创作者」 ，人工智能技术领域博主，码龄 5 年 ，累计发布 190+ 篇原创 文章，博客总访问量 30万+ 浏览。

🚀 持续更新 AI 前沿实战知识，专注于 AI 技术实战、RAG 系统、Agent 应用开发与大模型工程化落地。

目前主要更新方向包括：

🦞 最新 OpenClaw 教程 ---从入门到精通｜AI 智能助手/自动化/Skills 实战（原 Clawdbot/Moltbot）

✨ Agent 记忆系统 --- 长期记忆、上下文管理与个性化智能体设计
🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥以下系列正在火热更新中🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥

📘 图解机器学习合集 --- 用图解方式系统梳理机器学习核心概念，持续更新中
同时也会持续分享 AI 编程、Java 后端、Spring 生态、Transformer、大模型基础、计算机视觉 等方向内容，内容会尽量结合自己的学习记录、项目实践和踩坑经验来整理。
📱GZH： 安逸Ai (科技前沿新闻，Github热门项目，最新免费资料...)

网页观看完整系列合集：🌐 Anyi AI 学习资源站

线性回归和逻辑回归：最简单但最重要的机器学习模型

上篇聊了评估模型的方法------MSE、RMSE、R²这些东西。

这篇文章我想解决一个更根本的问题：模型到底是怎么从数据里"长"出来的？它凭什么能预测房价、判断垃圾邮件？

拆解两个最基础的模型------线性回归和逻辑回归。它们看起来简单，但大多数机器学习模型都是它们的延伸。

两个"回归"，干的活完全不一样

先别被名字绕晕。线性回归和逻辑回归，虽然都带"回归"俩字，但干的根本不是一回事。

线性回归预测的是一个具体的数值。比如明天降水量、房价走势、季度销售额。你输入一堆特征，它吐出一个数字。

逻辑回归做的是一个二选一的判断。比如这封邮件是不是垃圾短信、这笔贷款会不会违约。它不是给你一个数字，而是告诉你"是"还是"否"。

我带过几个实习生，每次讲这块都要用租房举例：

你去租房，线性回归会告诉你："这套房子租金大概值6000块。"------给你一个具体数字。

逻辑回归则会告诉你："这套房子值不值得租，值得就打1分，不值得就打0分。"------给你一个判断。

听起来挺简单的对吧？但细节才是真正有意思的地方。

线性回归：其实就是找一条最合适的直线

线性回归的核心：用一条直线，尽量贴近所有数据点。

你还记得 y = kx + b 吗？对，就是找出 k 和 b 的值。

现实情况是，影响房价的可不只是面积，还有地段、楼层、装修、周边配套......

这时候就要用多元线性回归：

y = β₀ + β₁x₁ + β₂x₂ + β₃x₃ + ... + βₙxₙ

每个 x 代表一个特征，每个 β 是这个特征的权重。模型的工作就是找出最优的 β 值。

怎么找？

说出来你别笑------就是猜。

你先猜一组 β，计算预测值和真实值的差距。然后调整 β，再算一遍。如果误差变小了，说明方向对了，继续调。

反复迭代，直到误差小到不能再小。这整个过程就是梯度下降。

听起来笨，但计算机最擅长的就是重复劳动，而且算得比你快一万倍。

逻辑回归：名字骗了你，它其实是个分类器

逻辑回归这个名字天生容易让人误会。

它的输出不是回归到一个数值，而是输出一个概率。

关键是 Sigmoid 函数：

f(x) = 1 / (1 + e^(-x))

这个函数的图像是个 S 形曲线。不管你输入什么数字，输出永远在 0 到 1 之间。

有什么用？

概率本身就是 0 到 1 之间的数。Sigmoid 把线性回归的输出"翻译"成了概率。

然后设个阈值就行了，通常是 0.5。概率大于等于 0.5，算一类；小于 0.5，算另一类。

就像高考录取分数线------过了及格线就录取，没过就不录取。简单粗暴，但管用。

那为什么叫"逻辑"回归？因为最早是生物学家研究种群增长时用的，叫"逻辑谛"曲线。后来被借用到机器学习里，名字就这么沿用下来了。

它们其实是"一家人"

表面上看，线性回归预测数值、逻辑回归做分类判断，完全是两种工具。

但它们的血缘关系很近。两者都属于广义线性模型（GLM）。

逻辑回归本质就两步骤：

第一步：先把数据送进线性回归算一遍，得到一个 raw score。

第二步：把这个分数扔进 Sigmoid 函数，翻译成 0 到 1 之间的概率。

说白了，逻辑回归就是在线性回归外面包了一层"概率翻译器"。

两者都靠梯度下降来优化参数，区别只在于代价函数不同。

线性回归用最小二乘法，逻辑回归用交叉熵。

核心逻辑是一样的：猜参数 → 算误差 → 调整参数 → 继续猜。

为什么逻辑回归不用平方误差？

线性回归用平方误差挺好用，为什么逻辑回归不继续用？

因为如果逻辑回归也用平方误差，它的代价函数会变成一个非凸函数。

什么是凸函数？想象一口圆底的碗。你往里扔个球，它不管从哪个方向滚，最后都会滚到碗底------只有一个最低点。

什么是非凸函数？想象月球表面，坑坑洼洼，有无数个凹陷。你往里扔球，可能滚进一个小坑就出不来了------到处都是"最低点"，但大多数都是局部最优，不是全局最优。

用平方误差的逻辑回归就是这样。梯度下降可能找到一个看起来不错的解，但往往不是最优解。

那怎么办？

用交叉熵作为代价函数。交叉熵是凸函数，只有一个全局最低点，梯度下降一定能找到这个点。

这就是逻辑回归"不跟平方误差玩"的原因------不是不想玩，是平方误差会把它带进沟里。

正则化：防止模型"死记硬背"

模型训练有个永恒的矛盾：既要拟合训练数据，又要保持简单。

太简单，欠拟合------考试不及格，什么都没学会。

太复杂，过拟合------背下了所有考题的答案，但换一套卷子就抓瞎。

正则化就是来解决这个问题的。思路很简单：惩罚那些过于复杂的模型。

两种主要的惩罚方式：

L1 正则化：把不重要的特征权重直接压成 0。相当于直接删除冗余特征，模型更精简。

L2 正则化：让所有特征权重都变小，但不会变成 0。相当于给每个特征都留点影响力，但谁都不能一家独大。

怎么选？

想要可解释的模型（比如想知道哪些因素真正重要），选 L1。它会把不重要的特征直接淘汰。

想要稳定的模型（比如上线后面对各种意外情况），选 L2。它让每个特征都参与决策，单个特征出问题也不影响全局。

没有绝对的好坏，只有场景的匹配。

掌握这两个"老祖宗"，你就入门了

线性回归和逻辑回归，一个预测数值，一个做分类判断。

看起来风马牛不相及，但本质是一样的------用一条线去划分数据空间。

线性回归画的是拟合线，逻辑回归画的是分类边界。

它们是机器学习最古老的两个"老祖宗"。后来的 SVM、神经网络、深度学习，说到底都是在想办法画更复杂的"线"。

搞懂了这两个模型，你再看其他算法，会有一种"原来都是套路"的感觉。

但问题来了------树模型可不是画直线，它是另一种思路：用一系列"如果-那么"的问题来做决策。

这就好比中医看病和西医看病的区别。一个靠望闻问切开药方，一个靠验血拍片找规律。

下回我们聊聊：树模型为什么这么受欢迎？决策树、随机森林、GBDT，它们各自的优势是什么？