机器学习-基础入门:从概念到核心方法论

在人工智能飞速发展的今天,机器学习作为其核心技术,正深刻改变着我们的生活与工作。从 AlphaGo 战胜围棋世界冠军,到日常的智能推荐、人脸识别,机器学习的应用无处不在。本文将从基础概念出发,带你系统了解机器学习的核心逻辑、关键术语、学习类型及模型评估方法,为入门机器学习打下基础。

一、什么是机器学习?

本质:

机器学习的本质是让计算机从数据中自主学习规律,并利用这些规律解决实际问题。

**1.**处理某个特定的任务,以大量的经验为基础。

**2.**对任务完成的好坏给予一定的评判标准。

**3.**通过分析经验数据,使任务完成的更好。

简单来说,传统编程是 "人类写规则,机器执行",而机器学习是 "机器从数据中找规则,自主优化"。

二、机器学习核心术语:读懂数据的 "语言"

1. 数据相关术语

数据集:数据记录的集合称为一个"数据集"

样本:数据集中每条记录是关于一个事件或对象的描述,称为"样本"

特征(属性):反映事件或对象在某方面的表现或性质的事项

属性空间:所有特征构成的多维空间,每个样本对应空间中的一个点(如 "色泽 + 根蒂 + 敲声" 构成三维空间,每个西瓜对应一个三维坐标)。

2. 学习过程术语

训练集:用于模型学习的数据,包含 "特征 + 标签"(如标注了 "好瓜 / 坏瓜" 的西瓜数据)。

测试集:用于验证模型性能的数据,通常不包含标签,由模型预测后与真实结果对比(如未标注的西瓜数据,测试模型能否正确判断好坏)。

模型:通过训练得到的 "规律总结器",能根据新样本的特征输出预测结果(如 "色泽青绿 + 根蒂蜷缩→好瓜" 的规则集合)。

三、机器学习的两大核心类型:监督与无监督

1. 监督学习:有 "老师" 指导的学习

监督学习的训练数据包含特征 + 标签(即 "正确答案"),模型通过学习特征与标签的对应关系,实现对新数据的预测。

分类:标签是离散值(如 "好瓜 / 坏瓜""垃圾邮件 / 正常邮件"),目标是将新样本归入已知类别。

回归:标签是连续值(如房价、温度),目标是预测新样本的具体数值(如 "88 平米房屋→价格 88 万元")。

2. 无监督学习:无 "答案" 的自主探索

无监督学习的训练数据只有特征,没有标签,模型需自主发现数据中的隐藏结构。无需人工标注标签,让机器从无标签数据中自主探索规律

聚类任务:将相似样本自动归为一类(如无需标注,自动将用户按消费习惯分为 "高消费群""低频消费群")。

3.集成学习:通过构建并结合多个学习器来完成学习任务。

集成学习通过组合多个基础模型的预测结果,利用 "群体智慧" 提升性能,核心是整合优势、弥补单一模型局限。

关键前提

基础模型需具有多样性(预测误差不高度相关)

单个模型需具备一定准确性(不能太差)

四、模型评估:如何判断模型好坏?

1. 基础评估指标

错误率与精度:错误率是分类错误的样本数占样本总数的比例,精度 =' 1 - 错误率'。

残差:回归任务中,预测值与真实值的差异(如预测房价 100 万,实际 95 万,残差 5

查准率(P)与查全率(R)

查准率:预测为 "正类" 的样本中,实际为正类的比例(如预测 10 个好瓜,其中 8 个真的好,查准率 80%)。

查全率:所有实际正类中,被正确预测的比例(如实际 10 个好瓜,模型预测对 8 个,查全率 80%)。两者通常存在权衡:追求 "选的都是好瓜"(高查准率)可能漏掉部分好瓜(低查全率),反之亦然。

2. 数据划分方法

为确保评估客观,需合理划分训练集与测试集:

留出法:直接将数据集D划分为两个互斥的部分,其中一部分作为训练集S,另一部分用作测试集T 。

交叉验证法:先将数据集D划分为k个大小相似的互斥子集,每次采用k−1个子集的并集作为训练集,剩下的那个子集作为测试集。

3. 常见问题:欠拟合与过拟合

欠拟合:模型未学好数据规律(如仅用 "色泽" 判断西瓜好坏,忽略根蒂、敲声等关键特征),表现为训练误差和测试误差都高。

欠拟合的处理方式: 1. 添加新特征,当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。 2. 增加模型复杂度:简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能力。 3. 减小正则化系数:正则化是用来防止过拟合的,但当模型出现欠拟合现象时,则需要有针对性地减小正则化系数。

过拟合:模型 "死记硬背" 训练数据,甚至学到噪声(如认为 "有锯齿的才是树叶",误判光滑树叶为非树叶),表现为训练误差低但测试误差高。

过拟合的处理方式: 1. 增加训练数据:更多的样本能够让模型学习到更多更有效的特征,减小噪声的影响。 2. 降维:即丢弃一些不能帮助我们正确预测的特征。 3. 正则化(regularization)的技术,保留所有的特征,但是减少参数的大小(magnitude),它可以改善或者减少过拟合问题。 4. 集成学习方法:集成学习是把多个模型集成在一起,来降低单一模型的过拟合风险。

上为过拟合,test低。若欠拟合,train和test都低。正常时都高或走向一致。

五、机器学习的核心原则

1.奥卡姆剃刀原理

"如无必要,勿增实体", 在所有可能选择的模型中,我们应该选择能够很好的解释已知数据,并且十分简单的模型。 如果简单的模型已经够用,我们不应该一味的追求更小的训练误差,而把模型变得越来越复杂。

2.没有免费的午餐(NFL)

不存在 "万能算法",算法优劣取决于具体问题。对于基于迭代的最优化算法,不存在某种算法对所有问题(有限的搜索空间内)都有效。

六、总结:机器学习的本质是 "数据驱动的智能"

机器学习不是神秘的 "黑科技",而是一套 "从数据中找规律、用规律解决问题" 的系统化方法。从监督学习的 "有答案学习" 到无监督学习的 "自主探索",从模型训练到评估优化,每个环节都围绕 "让机器更好地理解数据" 展开。掌握核心概念(特征、标签、训练 / 测试集)、理解两大学习类型(监督 / 无监督)、识别常见问题(欠拟合 / 过拟合)是关键。

相关推荐
程序员码歌26 分钟前
【零代码AI编程实战】AI灯塔导航-从0到1实现篇
android·前端·人工智能
老艾的AI世界1 小时前
AI去、穿、换装软件下载,无内容限制,偷偷收藏
图像处理·人工智能·深度学习·神经网络·目标检测·机器学习·ai·换装·虚拟试衣·ai换装·一键换装
Navicat中国1 小时前
Navicat 询问 AI | 如何转换 SQL 为另一种数据库类型
数据库·人工智能·sql·数据库开发·navicat
javgo.cn1 小时前
Spring AI Alibaba - 聊天机器人快速上手
人工智能·ai·机器人
OpenC++1 小时前
【机器学习】核心分类及详细介绍
人工智能·机器学习·分类
大千AI助手1 小时前
艾伦·图灵:计算理论与人工智能的奠基人
人工智能·密码学·图灵·turing·人工智能之父·计算机科学之父·图灵机
软件测试-阿涛2 小时前
【AI绘画】Stable Diffusion webUI 常用功能使用技巧
人工智能·深度学习·计算机视觉·ai作画·stable diffusion
轻流AI2 小时前
线索转化率翻3倍?AI重构CRM
大数据·人工智能·低代码·重构
skywalk81632 小时前
LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。
人工智能·语言模型·自然语言处理
2301_821919922 小时前
机器学习概述(一)
人工智能·机器学习