机器学习笔记03

1.线性回归(linear regression)

是利用回归方程(函数)对一个或者多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方法。

线性模型:

1.线性关系:y = w1x1 + w2x2 ... + wnxn + b (b为偏置)

2.非线性关系

线性关系一定是线性模型,线性模型不一定是线性关系

损失函数/cost/成本函数/目标函数

最小二乘法

优化损失

正规方程

直接求解

梯度下降

试错,改进

波士顿房价预测(在sklearn1.2中已删除,http://lib.stat.cmu.edu/datasets/boston)

1.获取数据集

2.划分数据集

3.特征工程--标准化

4.预估器流程

fit() coef_(权重系数) intercept_(偏置)

5.模型评估

2.欠拟合和过拟合

欠拟合:学习到的数据特征过少

解决方法:增加数据的特征数量

过拟合:原始特征过多,存在一些嘈杂特征,模型过于复杂为了兼顾各个测试数据点

解决方法:正则化

L1

损失函数 + λ惩罚项 (只是绝对值)

LASSO

L2 更常用

损失函数 + λ惩罚项 (数值的平方)

Ridge - 岭回归

3.逻辑回归的改进-岭回归

带有L2正则化的线性回归-岭回归

逻辑回归的应用场景:

广告点击率 是否会被点击/是否为垃圾邮件

是否患病/是否为金融诈骗/ 是否为虚假账号

原理:线性回归的输出就是逻辑回归的输入

激活函数

sigmoid函数 [0,1]区间中的一个概率值,默认为0.5的阈值

1/(1 + e^(-x))

假设函数/线性模型

1/(1 + e^(-(w1x1 + w2x2 ... + wnxn + b)))

损失函数

(y_predict - y_true)平方和/总数

逻辑回归的真实值/预测值 是否属于某个类别

优化损失

4.分类的评估方法

精确率与召回率

1.混淆矩阵

TP = True Possitive

FN = False Negative

2.精确率(Precision)与召回率(Recall)

精确率

召回率 查的全不全

3.F1-score 模型的稳健性

总共有100人,如果99个样本是癌症,1个样本非癌症 --样本不均衡

复制代码
ROC曲线与AUC指标
	TPR与FPR
	TPR = TP/(TP + FN) - 召回率
		所有真是类别为1的样本中,预测类别为1的比例
	FPR = FP / (FP + TN)
		所有真是类别为0的样本中,预测类别为1的比例
AUC(Area Under Curve):
	被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。
又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,
检测方法真实性越高;等于0.5时,则真实性最低,无应用价值
1.AUC只能用来评价二分类
2.AUC非常适合评价样本不均衡中的分类器性能	

5.模型保存与加载

joblib.dump(estimator, 'my_ridge.pkl')

estimator = joblib.load('my_ridge.pkl')

6.无监督学习(没有目标值) -- K-means算法

聚类:K-means(K均值聚类)

降维:PCA

K-means原理:一种基于划分的无监督聚类算法,其核心思想是将数据集划分为k个簇,使得每个数据点都属于最近的簇,

并且簇的中心是所有数据点的平均值。

开发流程:

降维之后的数据

1.预估器流程

2.看结果

3.模型评估

kmeans性能评估指标

轮廓系数

如果b_i >> a_i 趋近于1效果越好,趋近于-1效果不好

轮廓系数的值介于[-1,1]之间

越趋近于1代表内聚度和分离度都相对较优

kmeans总结:采用迭代式算法,直观易懂并且非常实用

缺点:容易收敛到局部最优解

相关推荐
lingggggaaaa9 分钟前
小迪安全v2023学习笔记(一百三十四讲)—— Windows权限提升篇&数据库篇&MySQL&MSSQL&Oracle&自动化项目
java·数据库·windows·笔记·学习·安全·网络安全
工藤学编程18 分钟前
零基础学AI大模型之RAG技术
人工智能
Q_Q51100828527 分钟前
python+django/flask婚纱摄影拍照管理系统
spring boot·python·django·flask·node.js·php
安替-AnTi36 分钟前
PandaWiki:AI 驱动的开源知识库系
人工智能·embedding·检索增强·知识库·rag·查询优化
迦蓝叶38 分钟前
JAiRouter v1.0.0 正式发布:企业级 AI 服务网关的开源解决方案
java·运维·人工智能·网关·spring·ai·开源
长空任鸟飞_阿康1 小时前
Node.js 核心模块详解:fs 模块原理与应用
前端·人工智能·ai·node.js
可触的未来,发芽的智生1 小时前
触摸未来2025-10-18:生成文字的小宇宙矩阵溯源
人工智能·python·神经网络·程序人生·自然语言处理
_码力全开_1 小时前
P1005 [NOIP 2007 提高组] 矩阵取数游戏
java·c语言·c++·python·算法·矩阵·go
武子康1 小时前
AI-调查研究-106-具身智能 机器人学习数据采集工具和手段:传感器、API、遥操作、仿真与真人示教全流程
人工智能·深度学习·机器学习·ai·系统架构·机器人·具身智能
jerryinwuhan1 小时前
机器人模拟器(python)
开发语言·python·机器人