吴恩达机器学习笔记十六 如何debug一个学习算法 模型评估 模型选择和训练 交叉验证测试集

如果算法预测出的结果不太好,可以考虑以下几个方面:

获得更多的训练样本

采用更少的特征

尝试获取更多的特征

增加多项式特征

增大或减小 λ

模型评估(evaluate model)

例如房价预测,用五个数据训练出的模型能很好的拟合这几个数据,但不能泛化到新的数据。

将数据按70%、30%的比例分成两份,一份是训练集,一份是测试集。

模型选择

一种有缺陷的方法:

可以计算一阶多项式、二阶多项式、...、十阶多项式的J(w,b),看看哪一个更小 ,就选择哪个作为模型。但这样仍可能出现泛化的不好的情况。

好的方法:

将数据集分成三部分,60%训练集(training set) ,20%交叉验证集(cross validation set / developent set / dev set),20%测试集(test set)

三个部分的 error 计算公式如下

可以选择交叉测试集误差最小的那个,然后用测试集误差来评估模型泛化的好坏。模型的选择要看模型在训练集和交叉验证集的好坏!不看测试集的结果。

相关推荐
星期天要睡觉1 小时前
机器学习——CountVectorizer将文本集合转换为 基于词频的特征矩阵
人工智能·机器学习·矩阵
天上的光4 小时前
17.迁移学习
人工智能·机器学习·迁移学习
数据智能老司机4 小时前
面向企业的图学习扩展——图简介
人工智能·机器学习·ai编程
Moshow郑锴6 小时前
机器学习相关算法:回溯算法 贪心算法 回归算法(线性回归) 算法超参数 多项式时间 朴素贝叶斯分类算法
算法·机器学习·回归
Moshow郑锴18 小时前
机器学习的特征工程(特征构造、特征选择、特征转换和特征提取)详解
人工智能·机器学习
C++、Java和Python的菜鸟19 小时前
第六章 统计初步
算法·机器学习·概率论
Jina AI1 天前
回归C++: 在GGUF上构建高效的向量模型
人工智能·算法·机器学习·数据挖掘·回归
试剂界的爱马仕1 天前
胶质母细胞瘤对化疗的敏感性由磷脂酰肌醇3-激酶β选择性调控
人工智能·科技·算法·机器学习·ai写作
AI波克布林1 天前
发文暴论!线性注意力is all you need!
人工智能·深度学习·神经网络·机器学习·注意力机制·线性注意力
张子夜 iiii1 天前
机器学习算法系列专栏:主成分分析(PCA)降维算法(初学者)
人工智能·python·算法·机器学习