吴恩达机器学习笔记十六 如何debug一个学习算法 模型评估 模型选择和训练 交叉验证测试集

如果算法预测出的结果不太好,可以考虑以下几个方面:

获得更多的训练样本

采用更少的特征

尝试获取更多的特征

增加多项式特征

增大或减小 λ

模型评估(evaluate model)

例如房价预测,用五个数据训练出的模型能很好的拟合这几个数据,但不能泛化到新的数据。

将数据按70%、30%的比例分成两份,一份是训练集,一份是测试集。

模型选择

一种有缺陷的方法:

可以计算一阶多项式、二阶多项式、...、十阶多项式的J(w,b),看看哪一个更小 ,就选择哪个作为模型。但这样仍可能出现泛化的不好的情况。

好的方法:

将数据集分成三部分,60%训练集(training set) ,20%交叉验证集(cross validation set / developent set / dev set),20%测试集(test set)

三个部分的 error 计算公式如下

可以选择交叉测试集误差最小的那个,然后用测试集误差来评估模型泛化的好坏。模型的选择要看模型在训练集和交叉验证集的好坏!不看测试集的结果。

相关推荐
龙文浩_32 分钟前
AI / 机器学习 / 深度学习,它们的关系、核心流程、算法、任务、训练逻辑
人工智能·python·深度学习·神经网络·机器学习
badhope1 小时前
最小二乘与最速下降法实战解析
人工智能·机器学习·plotly·github·matplotlib
Zero1 小时前
机器学习线性代数--(13)小结:从线性代数到机器学习
线性代数·机器学习
人邮异步社区1 小时前
大一学生如何入门机器学习,深度学习,学习顺序如何?
深度学习·学习·机器学习
MicroTech20251 小时前
微算法科技(NASDAQ: MLGO)使用机器学习保障量子安全下区块链高效可用
科技·算法·机器学习
智算菩萨1 小时前
音频处理基础理论:从物理声波到数字信号完整知识体系
算法·机器学习·电脑·音视频
绒绒毛毛雨2 小时前
On the Plasticity and Stability for Post-Training Large Language Models
人工智能·机器学习·语言模型
散峰而望2 小时前
【基础算法】剪枝与记忆化搜索:算法优化的双刃剑,效率倍增的实战指南
算法·机器学习·剪枝
温九味闻醉11 小时前
关于腾讯广告算法大赛2025项目分析1 - dataset.py
人工智能·算法·机器学习