

🎯 博主简介
CSDN 「新星创作者」 ,人工智能技术领域博主,码龄 5 年 ,累计发布
190+ 篇原创文章,博客总访问量30万+浏览。
🚀 持续更新 AI 前沿实战知识,专注于 AI 技术实战、RAG 系统、Agent 应用开发与大模型工程化落地。目前主要更新方向包括:
- 🦞 最新 OpenClaw 教程 ---从入门到精通|AI 智能助手/自动化/Skills 实战(原 Clawdbot/Moltbot)
- ✨ Agent 记忆系统 --- 长期记忆、上下文管理与个性化智能体设计
🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥以下系列正在火热更新中🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥- 📘 图解机器学习合集 --- 用图解方式系统梳理机器学习核心概念,持续更新中
同时也会持续分享 AI 编程、Java 后端、Spring 生态、Transformer、大模型基础、计算机视觉 等方向内容,内容会尽量结合自己的学习记录、项目实践和踩坑经验来整理。
📱GZH:安逸Ai(科技前沿新闻,Github热门项目,最新免费资料...)- 网页观看完整系列合集:🌐 Anyi AI 学习资源站
线性回归和逻辑回归:最简单但最重要的机器学习模型
上篇聊了评估模型的方法------MSE、RMSE、R²这些东西。
这篇文章我想解决一个更根本的问题:模型到底是怎么从数据里"长"出来的?它凭什么能预测房价、判断垃圾邮件?
拆解两个最基础的模型------线性回归和逻辑回归。它们看起来简单,但大多数机器学习模型都是它们的延伸。
两个"回归",干的活完全不一样
先别被名字绕晕。线性回归和逻辑回归,虽然都带"回归"俩字,但干的根本不是一回事。
线性回归预测的是一个具体的数值。比如明天降水量、房价走势、季度销售额。你输入一堆特征,它吐出一个数字。
逻辑回归做的是一个二选一的判断。比如这封邮件是不是垃圾短信、这笔贷款会不会违约。它不是给你一个数字,而是告诉你"是"还是"否"。
我带过几个实习生,每次讲这块都要用租房举例:
你去租房,线性回归会告诉你:"这套房子租金大概值6000块。"------给你一个具体数字。
逻辑回归则会告诉你:"这套房子值不值得租,值得就打1分,不值得就打0分。"------给你一个判断。
听起来挺简单的对吧?但细节才是真正有意思的地方。

线性回归:其实就是找一条最合适的直线
线性回归的核心:用一条直线,尽量贴近所有数据点。
你还记得 y = kx + b 吗?对,就是找出 k 和 b 的值。
现实情况是,影响房价的可不只是面积,还有地段、楼层、装修、周边配套......
这时候就要用多元线性回归:
y = β₀ + β₁x₁ + β₂x₂ + β₃x₃ + ... + βₙxₙ
每个 x 代表一个特征,每个 β 是这个特征的权重。模型的工作就是找出最优的 β 值。
怎么找?
说出来你别笑------就是猜。
你先猜一组 β,计算预测值和真实值的差距。然后调整 β,再算一遍。如果误差变小了,说明方向对了,继续调。
反复迭代,直到误差小到不能再小。这整个过程就是梯度下降。
听起来笨,但计算机最擅长的就是重复劳动,而且算得比你快一万倍。

逻辑回归:名字骗了你,它其实是个分类器
逻辑回归这个名字天生容易让人误会。
它的输出不是回归到一个数值,而是输出一个概率。
关键是 Sigmoid 函数:
f(x) = 1 / (1 + e^(-x))
这个函数的图像是个 S 形曲线。不管你输入什么数字,输出永远在 0 到 1 之间。
有什么用?
概率本身就是 0 到 1 之间的数。Sigmoid 把线性回归的输出"翻译"成了概率。
然后设个阈值就行了,通常是 0.5。概率大于等于 0.5,算一类;小于 0.5,算另一类。
就像高考录取分数线------过了及格线就录取,没过就不录取。简单粗暴,但管用。
那为什么叫"逻辑"回归?因为最早是生物学家研究种群增长时用的,叫"逻辑谛"曲线。后来被借用到机器学习里,名字就这么沿用下来了。

它们其实是"一家人"
表面上看,线性回归预测数值、逻辑回归做分类判断,完全是两种工具。
但它们的血缘关系很近。两者都属于广义线性模型(GLM)。
逻辑回归本质就两步骤:
第一步:先把数据送进线性回归算一遍,得到一个 raw score。
第二步:把这个分数扔进 Sigmoid 函数,翻译成 0 到 1 之间的概率。
说白了,逻辑回归就是在线性回归外面包了一层"概率翻译器"。
两者都靠梯度下降来优化参数,区别只在于代价函数不同。
线性回归用最小二乘法,逻辑回归用交叉熵。
核心逻辑是一样的:猜参数 → 算误差 → 调整参数 → 继续猜。

为什么逻辑回归不用平方误差?
线性回归用平方误差挺好用,为什么逻辑回归不继续用?
因为如果逻辑回归也用平方误差,它的代价函数会变成一个非凸函数。
什么是凸函数?想象一口圆底的碗。你往里扔个球,它不管从哪个方向滚,最后都会滚到碗底------只有一个最低点。
什么是非凸函数?想象月球表面,坑坑洼洼,有无数个凹陷。你往里扔球,可能滚进一个小坑就出不来了------到处都是"最低点",但大多数都是局部最优,不是全局最优。
用平方误差的逻辑回归就是这样。梯度下降可能找到一个看起来不错的解,但往往不是最优解。
那怎么办?
用交叉熵作为代价函数。交叉熵是凸函数,只有一个全局最低点,梯度下降一定能找到这个点。
这就是逻辑回归"不跟平方误差玩"的原因------不是不想玩,是平方误差会把它带进沟里。

正则化:防止模型"死记硬背"
模型训练有个永恒的矛盾:既要拟合训练数据,又要保持简单。
太简单,欠拟合------考试不及格,什么都没学会。
太复杂,过拟合------背下了所有考题的答案,但换一套卷子就抓瞎。
正则化就是来解决这个问题的。思路很简单:惩罚那些过于复杂的模型。
两种主要的惩罚方式:
L1 正则化:把不重要的特征权重直接压成 0。相当于直接删除冗余特征,模型更精简。
L2 正则化:让所有特征权重都变小,但不会变成 0。相当于给每个特征都留点影响力,但谁都不能一家独大。
怎么选?
想要可解释的模型(比如想知道哪些因素真正重要),选 L1。它会把不重要的特征直接淘汰。
想要稳定的模型(比如上线后面对各种意外情况),选 L2。它让每个特征都参与决策,单个特征出问题也不影响全局。
没有绝对的好坏,只有场景的匹配。
掌握这两个"老祖宗",你就入门了
线性回归和逻辑回归,一个预测数值,一个做分类判断。
看起来风马牛不相及,但本质是一样的------用一条线去划分数据空间。
线性回归画的是拟合线,逻辑回归画的是分类边界。
它们是机器学习最古老的两个"老祖宗"。后来的 SVM、神经网络、深度学习,说到底都是在想办法画更复杂的"线"。
搞懂了这两个模型,你再看其他算法,会有一种"原来都是套路"的感觉。
但问题来了------树模型可不是画直线,它是另一种思路:用一系列"如果-那么"的问题来做决策。
这就好比中医看病和西医看病的区别。一个靠望闻问切开药方,一个靠验血拍片找规律。
下回我们聊聊:树模型为什么这么受欢迎?决策树、随机森林、GBDT,它们各自的优势是什么?