【机器学习】机器学习四大类第01课

一、机器学习四大类

有监督学习 (Supervised Learning)

有监督学习是通过已知的输入-输出对(即标记过的训练数据)来学习函数关系的过程。在训练阶段,模型会根据这些示例调整参数以尽可能准确地预测新的、未见过的数据点的输出。 实例:垃圾邮件分类器。训练数据集包含一系列电子邮件及其对应的标签(垃圾邮件或非垃圾邮件)。通过学习这些特征与标签之间的关联,模型可以用于识别新的邮件是否为垃圾邮件。

无监督学习 (Unsupervised Learning)

在无监督学习中,没有给定特定的输出标签,算法需要自己发现数据中的内在结构、模式或集群。它的目标通常是将数据进行分组或降维,以便更好地理解数据分布。 实例:客户细分。假设我们有一组客户的行为数据(如购买历史、访问频率等),但没有明确的类别标签。使用聚类算法(例如K-means)可以将相似行为模式的客户自动划分为不同的群体。

半监督学习 (Semi-supervised Learning)

半监督学习

介于有监督学习和无监督学习之间,它利用一部分带有标签的数据和大量未标记的数据进行学习。通常在标注数据有限的情况下,这种学习方式可以帮助提高模型性能。 实例:图像分类。如果只有部分图像被人工标注了类别,而剩余大部分图像没有标签,模型可以通过分析图像间的相似性,在已知标签图像的帮助下,推断出未标记图像的类别。

强化学习 (Reinforcement Learning, RL)

强化学习

是一种序列决策过程的学习方法,智能体通过与环境交互获得奖励或惩罚,并根据这些反馈调整其策略以最大化长期累积奖励。 实例:AlphaGo(围棋AI)。AlphaGo在每次走棋时都会得到一个即时的奖励信号(赢棋或输棋的最终结果,以及过程中每一步棋的相对价值估计),通过不断对弈学习最优策略,逐步提高棋艺水平。

二、具体解释以上四种学习

细节概念:

输入 (Input): 输入是指模型接收到的数据或信息。这些数据通常以**特征【属性与特征区别:属性可以理解为路程,特征可以理解为路程是1公里,特征有具体值。】**的形式呈现,可以帮助模型理解和分析问题。例如,在房价预测的任务中,输入可能包括房屋的面积、卧室数量、地理位置、建成年份等特征。

实例:设想一个简单的水果识别系统,这里的输入可能是一张包含水果的图片。这张图片会被转换为像素值等数字特征,作为模型判断"这是什么水果"的依据。

输出 (Output): 输出是模型根据输入数据经过处理后得出的结果。对于分类任务,输出是一个类别标签;回归任务则是一个连续数值;而强化学习中输出可能是采取某个动作的决策。

实例:

继续上面的水果识别系统例子,模型的输出将是识别出的水果种类,如苹果、香蕉或橙子。

在房价预测模型中,输出将是基于输入特征预测出的该房屋的价格(一个具体的数值)。

对于强化学习中的AlphaGo,每一步棋的输出则是它决定走的下一步棋的位置(即策略选择)。

整体细分

  1. 垃圾邮件分类器(有监督学习)

输入:模型接收到的是一封电子邮件的内容,包括邮件主题、正文、发件人信息等特征,这些特征被转化为数值向量表示。

处理过程:模型使用如逻辑回归、朴素贝叶斯、支持向量机或深度学习等算法,通过学习训练集中已标记为"垃圾邮件"或"非垃圾邮件"的邮件样本特征与标签之间的关联规律。

输出:模型预测给定新邮件是否为垃圾邮件,输出结果是一个概率值或者类别标签。例如,输出0.95可能意味着模型判断该邮件是垃圾邮件的概率为95%,而输出"垃圾邮件"则直接指明了邮件类型。

  1. 客户细分(无监督学习)

输入:模型接收一组客户的多维度数据,比如消费记录、浏览行为、购买频率、产品偏好等特征。

处理过程:应用聚类算法(如K-means或层次聚类),将相似特征的客户归入同一簇中,算法根据数据内在结构和模式自动划分集群,无需事先知道客户的具体类别。

输出:模型最终生成多个客户群体,并为每个客户提供一个所属的簇标识。例如,输出可能是客户A属于"高价值潜在用户"簇,客户B属于"频繁购物者"簇。

  1. 图像分类(半监督学习)

输入:一部分图像具有人工标注的类别标签,其余大部分图像没有标签。每张图片都转换为像素强度构成的数字矩阵作为特征。

处理过程:模型首先利用有限的带标签数据进行初步训练,然后在大量未标记的数据上运用自训练、迁移学习或生成对抗网络等方法来进一步提升模型性能。

输出:对于新的未知类别图像,模型能够预测出其所属类别。例如,输出一张未知猫狗照片的类别为"猫"。

  1. AlphaGo(强化学习)

输入:在每一轮游戏过程中,AlphaGo的输入是当前围棋棋盘的状态,即黑子白子的位置分布。

处理过程:AlphaGo基于深度神经网络(策略网络和价值网络)计算出各种可能下法的得分和局面评估值,并通过蒙特卡洛树搜索结合这两个网络的结果,确定最优走法。

输出:在每一步决策时,模型会输出它认为最佳的下一步落子位置,从而采取行动。随着游戏的进行,不断学习并优化策略以最大化最终获胜的可能性。

相关推荐
Debroon1 分钟前
RuleAlign 规则对齐框架:将医生的诊断规则形式化并注入模型,无需额外人工标注的自动对齐方法
人工智能
羊小猪~~8 分钟前
神经网络基础--什么是正向传播??什么是方向传播??
人工智能·pytorch·python·深度学习·神经网络·算法·机器学习
AI小杨9 分钟前
【车道线检测】一、传统车道线检测:基于霍夫变换的车道线检测史诗级详细教程
人工智能·opencv·计算机视觉·霍夫变换·车道线检测
晨曦_子画13 分钟前
编程语言之战:AI 之后的 Kotlin 与 Java
android·java·开发语言·人工智能·kotlin
道可云15 分钟前
道可云人工智能&元宇宙每日资讯|2024国际虚拟现实创新大会将在青岛举办
大数据·人工智能·3d·机器人·ar·vr
人工智能培训咨询叶梓24 分钟前
探索开放资源上指令微调语言模型的现状
人工智能·语言模型·自然语言处理·性能优化·调优·大模型微调·指令微调
zzZ_CMing24 分钟前
大语言模型训练的全过程:预训练、微调、RLHF
人工智能·自然语言处理·aigc
newxtc25 分钟前
【旷视科技-注册/登录安全分析报告】
人工智能·科技·安全·ddddocr
成都古河云26 分钟前
智慧场馆:安全、节能与智能化管理的未来
大数据·运维·人工智能·安全·智慧城市
UCloud_TShare29 分钟前
浅谈语言模型推理框架 vLLM 0.6.0性能优化
人工智能