【人工智能】机器学习基础概念

机器学习基础概念

文章目录

机器学习基础分类

机器学习(Machine Learning, ML)根据学习方式是否有标签数据,通常分为以下几大类:

  1. 监督学习(Supervised Learning)
  2. 半监督学习(Semi-supervised Learning)
  3. 非监督学习(Unsupervised Learning)

监督学习

  • 训练数据集:输入数据和对应的标签(即目标输出)。
  • 目标:学习一个映射函数,将输入映射到正确的输出(标签)。
  • 应用:分类 (预测离散类别,如:垃圾邮件识别(是/否)、图像识别(猫/狗/鸟))、回归(预测连续数值,如:房价、股票价格预测)等任务

在监督学习中,训练数据是带标签的,也就是说,每个输入数据都有一个对应的输出标签。模型的目标是从这些输入数据和标签对中学习一个映射函数,使得给定新的输入时,能够预测出正确的输出标签。

  • 输入数据(x):由特征组成的样本数据。
  • 输出标签(y):与输入数据对应的正确答案(标签),如价格、类别、销售额等。

监督学习常见算法

  • 线性回归(Linear Regression)
  • 逻辑回归(Logistic Regression)
  • 支持向量机(SVM)
  • 决策树(Decision Tree)
  • 随机森林(Random Forest)
  • 梯度提升树(XGBoost, LightGBM)
  • 神经网络(Neural Networks)
  • 朴素贝叶斯(Naive Bayes)

使用监督学习算法建立多变量房价预测模型时,不同变量在数值上差别会非常大,比如房屋面积房间个数 这两个变量(特征)在数值上差了几百上千倍,在这种情况下模型只关注数值大的特征,小尺度特征失去作用 。所以在训练模型时需要注意特征缩放(Scaling),使得所有特征归一化,加速模型收敛。

需要进行特征缩放的模型:

  1. 基于距离的模型
    • K近邻(KNN)
    • 支持向量机(SVM)
    • 聚类算法(如K-Means)
  2. 基于梯度下降的模型
    • 线性回归/逻辑回归(使用梯度下降优化时)
    • 神经网络(MLP、深度学习)
  3. 带正则化的模型(L1/L2)
    • Ridge(L2) / Lasso(L1) 回归
    • 带权重衰减的神经网络

监督学习应用场景

监督学习的应用场景非常广泛,主要用于那些数据可以明确标注的任务。常见的应用包括:

  • 分类任务(离散的标签):例如垃圾邮件检测、情感分析(评论打分)、手写数字识别(MNIST数据集)。
  • 回归任务(连续的数值):例如房价预测、股票市场预测、天气预测。

优点:

  • 训练过程较为清晰、容易理解。
  • 在有足够标注数据的情况下,模型可以非常准确地进行预测。

缺点:

  • 依赖大量标注数据:标注数据需要人工进行,尤其在某些领域(如医学、法律等)标注成本很高。
  • 过拟合风险:模型可能会在训练数据上表现很好,但在新数据上表现不佳,尤其是在训练数据不足或质量不高时。

非监督学习

  • 训练数据集:只有输入数据,没有标签信息。
  • 目标:从数据中找出隐藏的结构或模式,例如通过聚类或降维来分析数据。
  • 应用:聚类、降维、异常检测等任务。例如,顾客分群、PCA降维。

基本原理

  • 非监督学习与监督学习的最大不同之处在于,它不依赖于标注数据 。在非监督学习中,训练数据没有标签,目标是从数据中发现潜在的结构、模式或规律,而不是预测具体的输出标签
  • 非监督学习的关键在于通过不同的算法来揭示数据内部的潜在关系

训练过程

  • 输入数据(X):仅包含样本的特征数据,没有对应的标签。
  • 目标:识别数据中的内在结构或规律,如聚类、降维、异常检测等。

非监督学习常见算法

  • K-means聚类(K-means Clustering)
  • 层次聚类(Hierachical Clustering)
  • 主成分分析(PCA)
  • 自编码器(Autoencoders)
  • 孤立森林(lsolation Forest)

非监督学习应用场景


半监督学习

  • 训练数据集:大量没有标签的数据和少量有标签的数据
  • 目标:利用少量标签数据来帮助从大量未标注数据中学习,从而提供模型的准确性
  • 应用:大规模数据集的分类任务,在标注成本高的情况下有很大的应用价值。例如,语音识别、图像分类。

核心思想 :半监督学习介于监督学习和非监督学习之间,它利用少量标签 的数据和大量未标签 的数据来进行学习。其动机在于现实世界中,获取未标签数据通常比获取带标签数据容易得多且成本更低

目标 :通过结合利用这两种数据,达到比仅使用少量带标签数据(监督学习)或仅使用未标签数据(非监督学习)更好的学习效果,特别是提高模型的泛化能力和准确性


半监督学习常见算法


半监督学习应用场景

特别适用于 标注成本高昂标注过程耗时 的领域:

  • 图像分类:有少量标注图像和大量未标注图像。(如 自训练 场景)
  • 社交网络分析:用户关系和行为数据丰富,但显式标签少。(如 标签传播 场景)
  • 文本分类:如网页分类、情感分析,只有部分文本被人工标注。(如 一致性正则化 场景)
  • 语音识别:大量的语音数据易于获取,但转录标注费时费力。
  • 生物信息学:如蛋白质功能预测、基因序列分析。
  • 医学影像分析:标注需要专业医师,成本高。

传统机器学习三大范式对比

相关推荐
那个村的李富贵11 小时前
光影魔术师:CANN加速实时图像风格迁移,让每张照片秒变大师画作
人工智能·aigc·cann
腾讯云开发者12 小时前
“痛点”到“通点”!一份让 AI 真正落地产生真金白银的实战指南
人工智能
CareyWYR12 小时前
每周AI论文速递(260202-260206)
人工智能
hopsky13 小时前
大模型生成PPT的技术原理
人工智能
禁默14 小时前
打通 AI 与信号处理的“任督二脉”:Ascend SIP Boost 加速库深度实战
人工智能·信号处理·cann
心疼你的一切14 小时前
昇腾CANN实战落地:从智慧城市到AIGC,解锁五大行业AI应用的算力密码
数据仓库·人工智能·深度学习·aigc·智慧城市·cann
AI绘画哇哒哒14 小时前
【干货收藏】深度解析AI Agent框架:设计原理+主流选型+项目实操,一站式学习指南
人工智能·学习·ai·程序员·大模型·产品经理·转行
数据分析能量站14 小时前
Clawdbot(现名Moltbot)-现状分析
人工智能
那个村的李富贵14 小时前
CANN加速下的AIGC“即时翻译”:AI语音克隆与实时变声实战
人工智能·算法·aigc·cann
二十雨辰14 小时前
[python]-AI大模型
开发语言·人工智能·python