机器学习(12):拉索回归Lasso

- 拉索回归可以将一些权重压缩到零,从而实现特征选择。这意味着模型最终可能只包含一部分特征。

  • 适用于特征数量远大于样本数量的情况,或者当特征间存在相关性时,可以从中选择最相关的特征。

  • 拉索回归产生的模型可能更简单,因为它会去除一些不重要的特征。

API

sklearn.linear_model.Lasso()

参数:

  1. alpha (float, default=1.0):

    • 控制正则化强度;必须是非负浮点数。较大的 alpha 增加了正则化强度。
  2. fit_intercept (bool, default=True):

    • 是否计算此模型的截距。如果设置为 False,则不会使用截距(即数据应该已经被居中)。
  3. precompute (bool or array-like, default=False):

    • 如果为 True,则使用预计算的 Gram 矩阵来加速计算。如果为数组,则使用提供的 Gram 矩阵。
  4. copy_X (bool, default=True):

    • 如果为 True,则复制数据 X,否则可能对其进行修改。
  5. max_iter (int, default=1000):

    • 最大迭代次数。
  6. tol (float, default=1e-4):

    • 精度阈值。如果更新后的系数向量减去之前的系数向量的无穷范数除以 1 加上更新后的系数向量的无穷范数小于 tol,则认为收敛。
  7. warm_start (bool, default=False):

    • 当设置为 True 时,再次调用 fit 方法会重新使用之前调用 fit 方法的结果作为初始估计值,而不是清零它们。
  8. positive (bool, default=False):

    • 当设置为 True 时,强制系数为非负。
  9. random_state (int, RandomState instance, default=None):

    • 随机数生成器的状态。用于随机初始化坐标下降算法中的随机选择。
  10. selection ({'cyclic', 'random'}, default='cyclic'):

    • 如果设置为 'random',则随机选择坐标进行更新。如果设置为 'cyclic',则按照循环顺序选择坐标。

属性:

  1. coef_

    • 系数向量或者矩阵,代表了每个特征的权重。
  2. intercept_

    • 截距项(如果 fit_intercept=True)。
  3. n_iter_

    • 实际使用的迭代次数。
  4. n_features_in_ (int):

    • 训练样本中特征的数量。
python 复制代码
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error

x,y = fetch_california_housing(return_X_y=True,data_home = "./src")

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.2,random_state = 42)
scaler = StandardScaler()
x_train = scaler.fit_transform(x_train)
x_train = scaler.fit_transform(x_train)


model = Lasso(alpha =0.01,max_iter = 100,fit_intercept=True)
#调节alpha越大出现的零越多,因此拉索回归自带降维
model.fit(x_train,y_train)

y_hat = model.predict(x_test)
print("loss:",mean_squared_error(y_test,y_hat))
print("w:",model.coef_)
print("b:",model.intercept_)
相关推荐
天天找自己6 分钟前
机器学习基石:深入解析线性回归
人工智能·机器学习·线性回归
Godspeed Zhao44 分钟前
自动驾驶中的传感器技术12——Camera(3)
人工智能·机器学习·自动驾驶
tangjunjun-owen1 小时前
单类别目标检测中的 Varifocal Loss 与 mAP 评估:从原理到实践(特别前景和背景类区分)
人工智能·目标检测·计算机视觉
爆改模型1 小时前
【CVPR2025】计算机视觉|AnomalyNCD:让工业异常分类“脱胎换骨”!
人工智能·计算机视觉·分类
Fabarta技术团队1 小时前
Fabarta个人专属智能体限时体验中:高效、安全的长文写作新搭档
人工智能·科技·智能体
暴躁的大熊1 小时前
LLM大模型时代:生活服务领域的“生存革命“与新生态重构
人工智能
Blossom.1182 小时前
基于深度学习的医学图像分析:使用MobileNet实现医学图像分类
人工智能·深度学习·yolo·机器学习·分类·数据挖掘·迁移学习
德育处主任2 小时前
「豆包」加「PromptPilot」等于「优秀员工」
人工智能·llm·aigc
字节跳动安全中心2 小时前
猎影计划:从密流中捕获 Cobalt Strike 的隐秘身影
人工智能·安全·llm
技术炼丹人2 小时前
从RNN为什么长依赖遗忘到注意力机制的解决方案以及并行
人工智能·python·算法