线性回归既是一种数据挖掘与建模算法,也是统计学领域、计量经济学领域的常用学术建模方法,有何不同?

一.线性回归的基本形式

线性回归既是一种数据挖掘与建模算法,也是统计学领域、计量经济学领域的常用学术建模方法。在数据挖掘与建模领域,线性回归算法是一种较为基础的机器学习算法,其基本思想是将响应变量(因变量、被解释变量)和特征变量(自变量、解释变量、因子、协变量)描述成线性关系。

二.统计学领域、计量经济学领域的线性回归

统计学领域、计量经济学领域的线性回归主要关心的是估计的系数αβ ,尤其是β ,通过观察β 的系数方向、大小以及是否具有统计学显著性,来验证参与分析的经济变量之间的关系,比如提升通货膨胀率是否有助于降低失业率等等。所以,对于β系数估计的有效性是比较高的。在构建线性回归方程、应用最小二乘法估计回归方程系数时,需要满足以下假设条件:

  1. 假定特征之间无多重共线性。

  2. 误差项之间相互独立,且均服从同一正态分布。

  3. 误差项满足与特征之间的严格外生性假定。

  4. 误差项满足自身的同方差假定。

  5. 误差项满足自身的无自相关假定。

如果不满足这些假设条件,那么最小二乘法的适用性、估计系数的有效性就难以保证,从而学术研究的规范性也会受到质疑。

三.数据挖掘与建模领域的线性回归

而在数据挖掘与建模应用方面,模型致力于商业预测,比如研究客户的产品购买行为与年收入水平等变量之间的关系等,线性回归主要关心的是响应变量的实际值y与拟合值之间的差值是否足够小,特征变量的线性组合是否可以有效预测响应变量,因此,即使数据不满足那些假设条件,线性回归也可以积极使用,只要预测效果可以让人接受甚至令人非常满意,那么模型就可以被认为是适用的,可以用来进行预测。

响应变量的变化可以由α+βX 组成的线性部分和随机误差项ε 部分来解释。对于线性模型,一般采用最小二乘估计法来估计参数αβ ,最小二乘估计法的基本原理是使残差平方和最小,残差就是响应变量的实际值y 与拟合值之间的差值,其中响应变量的实际值y 即为样本观测值的实际y 值,而响应变量的拟合值即为基于样本观测值的实际X 值以及估计出来的参数αβ 。通过α +βX计算得到的、预测出来的值。

四.线性模型具有一定的稳定性

线性模型具有一定的稳定性。从技术角度来看,我们在评价模型的优劣时,通常从两个维度去评判,一是模型预测的准确性,二是模型预测的稳健性,两者相辅相成、缺一不可。关于模型预测的准确性,如果模型尽可能地拟合了历史数据信息,拟合优度很高,损失的信息量很小,而且对于未来的预测都很接近真实的发生值,那么这个模型一般被认为是质量较高的。而关于模型的稳健性,我们期望的是模型在对训练样本以外的样本进行预测时,模型的预测精度不应该有较大幅度的下降。一般来说,神经网络、决策树的预测准确性要优于线性回归、判别分析和Logistic回归分析等线性分析,但是其稳健性弱于线性分析。

五.统计分析、数据分析、挖掘方面有三个主流分支:统计学、计量经济学、机器学习

很多朋友问我,零基础如何入门统计分析、数据分析、数据挖掘?我想说的是:统计分析、数据分析、挖掘方面有三个主流分支:统计学、计量经济学、机器学习。这三个学科有所交叉,但也各自有侧重点。每个学校、每个专业具体情况不一样,但大多数都会选择其中一门或多门作为核心。根据我多年的教学经验,大家无论是学机器学习还是统计学、计量经济学,都建议结合着具体的软件或来学,对于不想走纯科研路线或者想成为理论大牛的大多数朋友来说,不建议过多研究数学公式,而是应一边学习知识原理,一遍上手操作,不然就会在复杂的推导面前耗尽了所有的学习热情。目前学习统计学实现工具最好用最流行的就是SPSS,学习计量经济学实现工具最好用最流行的就是Stata,而机器学习实现工具最好用最流行的就是Python,也比较好入手。所以,推荐学一门编程语言Python,加两个统计分析软件Stata、SPSS,这样几乎可以胜任统计分析与数据科学的各种场景,无论是在校搞学术还是职场搞数据都绰绰有余。

六.如何学习Python/SPSS/Stata?

在学习Python/SPSS/Stata时也不能光看视频,而是应该拿到具体的案例、源代码,一边学习一边操作,不断从学习中获得成就感,才会事半功倍,不然学了半天很容易学了就忘,那些代码估计也记不住,所以还是具体找些书好好的系统学习下。那么学习统计分析与数据科学应该看什么书?
1、《Python数据科学应用从入门到精通》张甜 杨维忠编著 清华大学出版社 2023年 适用于Python基础教学、数据分析、数据挖掘与建模、数据可视化、数据清洗等教学。国务院发展研究中心创新发展研究部第二研究室主任杨超 ,山东大学经济学院金融系党支部书记、副主任、副教授、硕士生导师张博,山东管理学院信息工程学院院长 袁锋 教授、硕士生导师,山东大学经济学院 刘一鸣 副研究员、硕士生导师,得厚投资合伙人 张伟民等一众大牛联袂推荐。

2、《Python机器学习原理与算法实现》杨维忠 张甜编著 清华大学出版社 2023年 适用于Python基础教学、数据分析、数据挖掘与建模、机器学习等教学。恒丰银行总行副行长郑现中,山东大学经济学院教学实验中心主任 副教授 韩振,德勤华永会计师事务所 华文伟 合伙人,首创证券深圳分公司机构业务部 樊磊 总经理 中国准精算师,山东省农村信用社联合社数据管理项目组 郝路安 总监等一众大牛联袂推荐。

3、《Stata统计分析从入门到精通》杨维忠 张甜编著 清华大学出版社 2022年 适用于Stata计量经济学、统计分析教学。国内计量大牛、山东大学陈强教授作序推荐,长期占据当当、京东、淘宝同类图书畅销榜前列。国内众多高校作为核心专业课程教材。

4、《Stata统计分析商用建模与综合案例精解》杨维忠 张甜编著 清华大学出版社 2021年 适用于Stata计量经济学、统计分析教学。国内众多高校作为核心专业课程教材。在51CTO举办的"2021年度最受读者喜爱的IT图书作者评选"中,《Stata统计分析商用建模与综合案例精解》荣获"数据科学领域最受读者喜爱的图书TOP5"。

5、《SPSS统计分析入门与应用精解(视频教学版)》杨维忠 张甜编著 清华大学出版社 2022年 适用于SPSS统计分析教学。同为国内计量大牛、山东大学陈强教授作序推荐,长期占据当当、京东、淘宝同类图书畅销榜前列。国内众多高校作为核心专业课程教材。

6、《SPSS统计分析商用建模与综合案例精解》杨维忠 张甜编著 清华大学出版社 2021年 适用于SPSS统计分析教学。国内众多高校作为核心专业课程教材。在51CTO举办的"2021年度最受读者喜爱的IT图书作者评选"中,《SPSS统计分析商用建模与综合案例精解》荣获"数据科学领域最受读者喜爱的图书TOP5"。

京东、当当、淘宝各大平台均在热销中,搜索书名即可。

创作不易,恳请大家多多点赞支持!也欢迎大家关注我,让我们一起学习Stata、SPSS、Python知识。多谢!

相关推荐
代码AI弗森9 小时前
从 IDE 到 CLI:AI 编程代理工具全景与落地指南(附对比矩阵与脚本化示例)
ide·人工智能·矩阵
xchenhao10 小时前
SciKit-Learn 全面分析分类任务 breast_cancer 数据集
python·机器学习·分类·数据集·scikit-learn·svm
007tg11 小时前
从ChatGPT家长控制功能看AI合规与技术应对策略
人工智能·chatgpt·企业数据安全
Memene摸鱼日报12 小时前
「Memene 摸鱼日报 2025.9.11」腾讯推出命令行编程工具 CodeBuddy Code, ChatGPT 开发者模式迎来 MCP 全面支持
人工智能·chatgpt·agi
linjoe9912 小时前
【Deep Learning】Ubuntu配置深度学习环境
人工智能·深度学习·ubuntu
Greedy Alg12 小时前
LeetCode 142. 环形链表 II
算法
睡不醒的kun12 小时前
leetcode算法刷题的第三十二天
数据结构·c++·算法·leetcode·职场和发展·贪心算法·动态规划
独行soc13 小时前
2025年渗透测试面试题总结-66(题目+回答)
java·网络·python·安全·web安全·adb·渗透测试
先做个垃圾出来………13 小时前
残差连接的概念与作用
人工智能·算法·机器学习·语言模型·自然语言处理
AI小书房13 小时前
【人工智能通识专栏】第十三讲:图像处理
人工智能