Python机器学习:一文讲透机器学习中的验证集法

验证集法又被称为"留出法",基本思路是将样本数据集划分为两个互斥的集合:训练集和测试集。其中训练集占比一般为2/3~4/5,常用70%;测试集占比一般为1/5~1/3,常用30%。训练集用来构建机器学习模型;测试集也被称为"验证集""保留集",用来进行样本外预测,并计算测试集误差,估计模型预测能力。

验证集法的优点在于简单方便,但是也有自身劣势。一方面,验证集法的稳定性不足。验证集法的结果与随机分组高度相关,如果使用不同的随机数种子将数据分为不同的训练集和测试集,测试误差的波动可能会比较大。所以,在实施验证集法时,在训练集和测试集的划分方面需要注意保持数据分布的一致性,避免因样本集的划分而产生额外偏差,比如针对分类问题监督式学习,样本全集中有一个确定的正例/反例比例,假定为90%/10%,而如果在抽取的训练集中正例/反例比例为50%/50%,那么显然就会因样本集的划分产生较大的额外偏差,显著影响模型的泛化能力。

另一方面,验证集法的信息损失较为明显。因为我们评估的是使用训练集训练得到的模型,如果训练集比较大,接近样本全集,那么就能够更好地利用样本全集信息,得到的也更接近使用样本全集训练模型的结果,但是必然会造成测试集的过小,不可避免地会影响对模型泛化能力的评价;而如果训练集比较小,其中的样本较少,那么就大概率不能很好地利用样本全集信息,会产生较大的拟合偏差,也会影响对模型泛化能力的评价。

很多朋友反映学Python、学机器学习比较难、效果不好,我的观点是:需要拿到Python、机器学习的源代码边学习边操作,从解决问题、上手操作中获得成就感,才会越学越深入,学习效果才会好。

针对数据分析或机器学习推荐两本入门级的图书:《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)。这两本书的特色是在数据分析、机器学习各种算法的介绍方面通俗易懂,较少涉及数学推导,对 数学基础要求相对不高,在python代码方面讲的很细致,看了以后根据自身需要选取算法、优化代码、科学调参。

《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社) 内容非常详实,包含了Python和机器学习,相当于一次获得了两本书。在讲解各类机器学习算法时,逐一详解用到的各种Python代码,针对每行代码均有恰当注释(这一点基本上是大多数书目做不到的)。《Python机器学习原理与算法实现》 一书创作完成后,在正式出版之前,已经开发成一套系统课程,分9次授课,在某银行 内部开展了培训,490人根据行内组织统一学习,授课完成后放在 知鸟平台供回放学习,9次课程累计回放量近3万次,得到参训学员的一致好评,广泛应用于各位学员的工作实践。(所以,这是一本避雷避坑、已经被亲测可行的网红书,只要用心学,都没问题哦)

《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)

《Python数据科学应用从入门到精通》一书,旨在教会读者实现全流程的数据分析,并且相对《Python机器学习原理与算法实现》一书增加了很多概念性、科普性的内容,进一步降低了学习难度。 国务院发展研究中心创新发展研究部第二研究室主任杨超 ,山东大学经济学院金融系党支部书记、副主任、副教授、硕士生导师张博,山东管理学院信息工程学院院长 袁锋 教授、硕士生导师,山东大学经济学院 刘一鸣 副研究员、硕士生导师,得厚投资合伙人 张伟民等一众大牛联袂推荐。全书内容共分13章。其中第1章为数据科学应用概述,第2章讲解Python的入门基础知识,第3章讲解数据清洗。第4~6章介绍特征工程,包括特征选择、特征处理、特征提取。第7章介绍数据可视化。第8~13章介绍6种数据挖掘与建模方法,分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。从数据科学应用和Python的入门,再到数据清洗与特征工程,最终完成数据挖掘与建模或数据可视化,从而可以为读者提供"从拿到数据开始,一直到构建形成最终模型或可视化报告成果"的一站式、全流程指导。买这一本书相当于一下子得到了5本书(Python基础、数据清洗、特征工程、数据可视化、数据挖掘与建模),入门超级简单,不需要编程基础,也不需要过多数学推导,非常适用于零基础学生。

两本书随书赠送的学习资料也很多,包括全部的源代码、PPT、 思维导图,还有10小时以上的讲解视频,每一章后面还有练习题及参考答案,还有学习群,相对于只看网络上的视频,一方面更加系统、高效,另一方面照着书一步步操作学起来也事半功倍。全网热销中,当当、京东等平台搜索"Python机器学习 杨维忠""Python数据科学 杨维忠"即可。

相关推荐
CodeCraft Studio几秒前
借助Aspose.HTML控件,在 Python 中将 HTML 转换为 Markdown
开发语言·python·html·markdown·aspose·html转markdown·asposel.html
悠哉悠哉愿意20 分钟前
【电赛学习笔记】MaxiCAM 项目实践——与单片机的串口通信
笔记·python·单片机·嵌入式硬件·学习·视觉检测
封奚泽优24 分钟前
使用Python实现单词记忆软件
开发语言·python·random·qpushbutton·qtwidgets·qtcore·qtgui
想变成树袋熊37 分钟前
【自用】NLP算法面经(6)
人工智能·算法·自然语言处理
Goona_1 小时前
拒绝SQL恐惧:用Python+pyqt打造任意Excel数据库查询系统
数据库·python·sql·excel·pyqt
格林威1 小时前
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现沙滩小人检测识别(C#代码UI界面版)
人工智能·深度学习·数码相机·yolo·计算机视觉
checkcheckck1 小时前
spring ai 适配 流式回答、mcp、milvus向量数据库、rag、聊天会话记忆
人工智能
Microvision维视智造1 小时前
从“人工眼”到‘智能眼’:EZ-Vision视觉系统如何重构生产线视觉检测精度?
图像处理·人工智能·重构·视觉检测
巫婆理发2222 小时前
神经网络(多层感知机)(第二课第二周)
人工智能·深度学习·神经网络
lxmyzzs2 小时前
【打怪升级 - 03】YOLO11/YOLO12/YOLOv10/YOLOv8 完全指南:从理论到代码实战,新手入门必看教程
人工智能·神经网络·yolo·目标检测·计算机视觉