回归与聚类——性能评估(二)

1分析

回归当中的数据大小不一致,是否会导致结果影响较大。所以需要做标准化处理。

  • 数据分割与标准化处理
  • 回归预测
  • 线性回归的算法效果评估

2回归性能评估

均方误差(Mean Squared Error)MSE)评价机制:

注:y^i为预测值,y-为真实值

  • sklearn.metrics.mean_squared_error(y_true, y_pred)
    • 均方误差回归损失
    • y_true:真实值
    • y_pred:预测值
    • return:浮点数结果

3代码

我们也可以尝试去修改学习率

c 复制代码
estimator =SGDRegressor(learning_rate='constant',eta0=0.001)

此时我们可以通过调参数,找到学习率效果更好的值。

4正规方程和梯度下降对比

  • 文字对比
梯度下降 正规方程
需要选择学习率 不需要
需要迭代求解 一次运算得出
特征数量较大可以使用 需要计算方程,时间复杂度高O(n3)
  • 选择:
    • 小规模数据:
      • LinearRegression(不能解决拟合问题)
      • 岭回归
    • 大规模数据:SGDRegressor

拓展-关于优化方法GD、SGD、SAG

1、GD 梯度下降,原始的梯度下降法需要计算所有样本的值才能够得出梯度,计算量大,所以后面才有会一系列的改进。

2、SGD随机梯度下降。它在一次迭代时只考虑一个训练样本。

  • SGD的优点是:
    • 高效
    • 容易实现
  • SGD的缺点是:
    • SGD需要许多超参数:比如正则项参数、选代数
    • SGD对于特征标准化是敏感的。

3、SAG随机平均梯度法,由于收敛的速度太慢,有人提出SAG等基于梯度下降的算法。

Scikit-learn:岭回归、逻辑回归等当中都会有SAG优化

相关推荐
鸿蒙布道师36 分钟前
英伟达开源Llama-Nemotron系列模型:14万H100小时训练细节全解析
深度学习·神经网络·opencv·机器学习·自然语言处理·数据挖掘·llama
慕婉03076 小时前
如何理解编程中的递归、迭代与回归?
人工智能·数据挖掘·回归
大刘讲IT8 小时前
轻量化工业互联网平台在中小制造企业的垂直应用实践:架构、集成、数据价值与选型策略
大数据·学习·程序人生·架构·数据挖掘·能源·制造
泡芙萝莉酱9 小时前
各省份发电量数据(2005-2022年)-社科数据
大数据·人工智能·深度学习·数据挖掘·数据分析·毕业论文·数据统计
凉白开33820 小时前
电商双11美妆数据分析实验总结
信息可视化·数据挖掘·数据分析
終不似少年遊*21 小时前
MindSpore框架学习项目-ResNet药物分类-模型优化
人工智能·深度学习·机器学习·计算机视觉·分类·数据挖掘·华为云
阡之尘埃1 天前
Python数据分析案例74——基于内容的深度学习推荐系统(电影推荐)
python·深度学习·数据挖掘·数据分析·推荐系统·电影推荐
胡耀超1 天前
从逻辑学视角理解统计学在数据挖掘中的作用
人工智能·python·数据挖掘·统计学·逻辑学
Leo.yuan1 天前
热力图是什么?三分钟学会热力图数据分析怎么做!
大数据·数据库·数据挖掘·数据分析·html
枝上棉蛮1 天前
智慧医院的可视化变革:可视化工具助力数字化转型
信息可视化·数据挖掘·数据分析·数字孪生·数据可视化·智慧医院