【人工智能】机器学习基础概念

机器学习基础概念

文章目录

机器学习基础分类

机器学习(Machine Learning, ML)根据学习方式是否有标签数据,通常分为以下几大类:

  1. 监督学习(Supervised Learning)
  2. 半监督学习(Semi-supervised Learning)
  3. 非监督学习(Unsupervised Learning)

监督学习

  • 训练数据集:输入数据和对应的标签(即目标输出)。
  • 目标:学习一个映射函数,将输入映射到正确的输出(标签)。
  • 应用:分类 (预测离散类别,如:垃圾邮件识别(是/否)、图像识别(猫/狗/鸟))、回归(预测连续数值,如:房价、股票价格预测)等任务

在监督学习中,训练数据是带标签的,也就是说,每个输入数据都有一个对应的输出标签。模型的目标是从这些输入数据和标签对中学习一个映射函数,使得给定新的输入时,能够预测出正确的输出标签。

  • 输入数据(x):由特征组成的样本数据。
  • 输出标签(y):与输入数据对应的正确答案(标签),如价格、类别、销售额等。

监督学习常见算法

  • 线性回归(Linear Regression)
  • 逻辑回归(Logistic Regression)
  • 支持向量机(SVM)
  • 决策树(Decision Tree)
  • 随机森林(Random Forest)
  • 梯度提升树(XGBoost, LightGBM)
  • 神经网络(Neural Networks)
  • 朴素贝叶斯(Naive Bayes)

使用监督学习算法建立多变量房价预测模型时,不同变量在数值上差别会非常大,比如房屋面积房间个数 这两个变量(特征)在数值上差了几百上千倍,在这种情况下模型只关注数值大的特征,小尺度特征失去作用 。所以在训练模型时需要注意特征缩放(Scaling),使得所有特征归一化,加速模型收敛。

需要进行特征缩放的模型:

  1. 基于距离的模型
    • K近邻(KNN)
    • 支持向量机(SVM)
    • 聚类算法(如K-Means)
  2. 基于梯度下降的模型
    • 线性回归/逻辑回归(使用梯度下降优化时)
    • 神经网络(MLP、深度学习)
  3. 带正则化的模型(L1/L2)
    • Ridge(L2) / Lasso(L1) 回归
    • 带权重衰减的神经网络

监督学习应用场景

监督学习的应用场景非常广泛,主要用于那些数据可以明确标注的任务。常见的应用包括:

  • 分类任务(离散的标签):例如垃圾邮件检测、情感分析(评论打分)、手写数字识别(MNIST数据集)。
  • 回归任务(连续的数值):例如房价预测、股票市场预测、天气预测。

优点:

  • 训练过程较为清晰、容易理解。
  • 在有足够标注数据的情况下,模型可以非常准确地进行预测。

缺点:

  • 依赖大量标注数据:标注数据需要人工进行,尤其在某些领域(如医学、法律等)标注成本很高。
  • 过拟合风险:模型可能会在训练数据上表现很好,但在新数据上表现不佳,尤其是在训练数据不足或质量不高时。

非监督学习

  • 训练数据集:只有输入数据,没有标签信息。
  • 目标:从数据中找出隐藏的结构或模式,例如通过聚类或降维来分析数据。
  • 应用:聚类、降维、异常检测等任务。例如,顾客分群、PCA降维。

基本原理

  • 非监督学习与监督学习的最大不同之处在于,它不依赖于标注数据 。在非监督学习中,训练数据没有标签,目标是从数据中发现潜在的结构、模式或规律,而不是预测具体的输出标签
  • 非监督学习的关键在于通过不同的算法来揭示数据内部的潜在关系

训练过程

  • 输入数据(X):仅包含样本的特征数据,没有对应的标签。
  • 目标:识别数据中的内在结构或规律,如聚类、降维、异常检测等。

非监督学习常见算法

  • K-means聚类(K-means Clustering)
  • 层次聚类(Hierachical Clustering)
  • 主成分分析(PCA)
  • 自编码器(Autoencoders)
  • 孤立森林(lsolation Forest)

非监督学习应用场景


半监督学习

  • 训练数据集:大量没有标签的数据和少量有标签的数据
  • 目标:利用少量标签数据来帮助从大量未标注数据中学习,从而提供模型的准确性
  • 应用:大规模数据集的分类任务,在标注成本高的情况下有很大的应用价值。例如,语音识别、图像分类。

核心思想 :半监督学习介于监督学习和非监督学习之间,它利用少量标签 的数据和大量未标签 的数据来进行学习。其动机在于现实世界中,获取未标签数据通常比获取带标签数据容易得多且成本更低

目标 :通过结合利用这两种数据,达到比仅使用少量带标签数据(监督学习)或仅使用未标签数据(非监督学习)更好的学习效果,特别是提高模型的泛化能力和准确性


半监督学习常见算法


半监督学习应用场景

特别适用于 标注成本高昂标注过程耗时 的领域:

  • 图像分类:有少量标注图像和大量未标注图像。(如 自训练 场景)
  • 社交网络分析:用户关系和行为数据丰富,但显式标签少。(如 标签传播 场景)
  • 文本分类:如网页分类、情感分析,只有部分文本被人工标注。(如 一致性正则化 场景)
  • 语音识别:大量的语音数据易于获取,但转录标注费时费力。
  • 生物信息学:如蛋白质功能预测、基因序列分析。
  • 医学影像分析:标注需要专业医师,成本高。

传统机器学习三大范式对比

相关推荐
无极低码1 天前
ecGlypher新手安装分步指南(标准化流程)
人工智能·算法·自然语言处理·大模型·rag
grant-ADAS1 天前
记录paddlepaddleOCR从环境到使用默认模型,再训练自己的数据微调模型再推理
人工智能·深度学习
炎爆的土豆翔1 天前
OpenCV 阈值二值化优化实战:LUT 并行、手写 AVX2 与 cv::threshold 性能对比
人工智能·opencv·计算机视觉
智能相对论1 天前
从AWE看到海尔智慧家庭步步引领
人工智能
云和数据.ChenGuang1 天前
魔搭社区 测试AI案例故障
人工智能·深度学习·机器学习·ai·mindstudio
小锋学长生活大爆炸1 天前
【工具】无需Token!WebAI2API将网页AI转为API使用
人工智能·深度学习·chatgpt·openclaw
昨夜见军贴06161 天前
AI审核赋能司法鉴定:IACheck如何保障刑事证据检测报告精准无误、经得起推敲?
人工智能
测试_AI_一辰1 天前
AI系统到底怎么测?一套六层测试框架(Agent案例)
人工智能·功能测试·需求分析·ai编程
运维小欣1 天前
智能体选型实战指南
运维·人工智能
小超同学你好1 天前
LangGraph 14. MCP:把“外部能力”标准化接入 LLM
人工智能·语言模型·transformer