吴恩达机器学习笔记十六 如何debug一个学习算法 模型评估 模型选择和训练 交叉验证测试集

如果算法预测出的结果不太好,可以考虑以下几个方面:

获得更多的训练样本

采用更少的特征

尝试获取更多的特征

增加多项式特征

增大或减小 λ

模型评估(evaluate model)

例如房价预测,用五个数据训练出的模型能很好的拟合这几个数据,但不能泛化到新的数据。

将数据按70%、30%的比例分成两份,一份是训练集,一份是测试集。

模型选择

一种有缺陷的方法:

可以计算一阶多项式、二阶多项式、...、十阶多项式的J(w,b),看看哪一个更小 ,就选择哪个作为模型。但这样仍可能出现泛化的不好的情况。

好的方法:

将数据集分成三部分,60%训练集(training set) ,20%交叉验证集(cross validation set / developent set / dev set),20%测试集(test set)

三个部分的 error 计算公式如下

可以选择交叉测试集误差最小的那个,然后用测试集误差来评估模型泛化的好坏。模型的选择要看模型在训练集和交叉验证集的好坏!不看测试集的结果。

相关推荐
β添砖java31 分钟前
机器学习----深度学习部分
人工智能·深度学习·机器学习
FL162386312940 分钟前
智慧工地建筑工地常见装备手推车切割机安全帽检测数据集VOC+YOLO格式13364张15类别
深度学习·yolo·机器学习
天一生水water1 小时前
储层认知→技术落地→产量优化
人工智能·算法·机器学习
过尽漉雪千山2 小时前
Anaconda的虚拟环境下使用清华源镜像安装Pytorch
人工智能·pytorch·python·深度学习·机器学习
jarreyer2 小时前
AB测试相关知识
人工智能·机器学习·ab测试
free-elcmacom2 小时前
机器学习入门<5>支持向量机形象教学:寻找最安全的“三八线”,人人都能懂的算法核心
人工智能·python·算法·机器学习·支持向量机
极客BIM工作室3 小时前
AI导读AI论文: CAD-Assistant: Tool-Augmented VLLMs as Generic CAD Task Solvers
人工智能·机器学习
CClaris3 小时前
PyTorch 损失函数与激活函数的正确组合
人工智能·pytorch·python·深度学习·机器学习
Brduino脑机接口技术答疑3 小时前
脑机接口数据处理连载(六) 脑机接口频域特征提取实战:傅里叶变换与功率谱分析
人工智能·python·算法·机器学习·数据分析·脑机接口
极客BIM工作室4 小时前
详解 KL 散度的反向传播计算:以三分类神经网络为例
神经网络·机器学习·分类