AI大模型-核心概念-机器学习

目的

为避免一学就会、一用就废,这里做下笔记

说明

本文内容紧接前文-AI发展史

机器学习

是什么

从范畴看 :机器学习是实现AI的一种途径,是一个专门的学科,除此之外,还有基于规则的专家系统、群体智能等其他途径
从内涵看:机器学习,就是从数据中分析获得规律,并利用规律对未知数据进行预测、分类或者决策的过程。

为什么

因为人类终于同时具备了:

  1. 强烈的愿望(让机器自主获得知识);
  2. 清晰的理论路径(统计学习、神经网络);
  3. 充足的"养料"(大数据);
  4. 强大的"消化器官"(算力);
  5. 广泛的应用场景(商业、科研、社会需求)。

这就像一门新科学的诞生:当"问题"、"方法"和"条件"同时成熟,学科便水到渠成地出现了。机器学习不是替代人类,而是延伸了人类从数据中获取洞见的能力,成为了数字时代的"基础科学"之一

怎么办

(传统)机器学习的步骤

步骤1:模型训练
步骤1.1:数据收集与预处理
  1. 获取数据:从数据库、日志、传感器等来源收集原始数据。

  2. 数据清洗

    1)处理缺失值(删除、填充均值/中位数等)。

    2)处理异常值。

    3)纠正不一致的数据。

  3. 数据格式化:确保数据是结构化的表格形式(如CSV),每一行是一个样本,每一列是一个特征。

步骤1.2:特征工程(最核心、最耗时的步骤)

这是传统机器学习的灵魂,目标是从原始数据中提取、构造出对预测任务最有用的特征。这是一个 "人工智慧" 密集型过程。

  1. 特征提取 :将原始数据转化为可用的数值特征

    例如:从文本中提取词频(TF-IDF),从图像中提取颜色直方图、SIFT特征。

  2. 特征构造/转换 :利用领域知识创造新的特征

    例如:从"出生日期"构造出"年龄";从"交易次数"和"总金额"构造出"平均交易额"。

  3. 特征选择 :从所有特征中挑选出最重要的子集,以降低维度、防止过拟合、提升效率。

    方法:过滤法(如相关系数)、包裹法(如递归特征消除)、嵌入法(如Lasso回归)。

  4. 特征缩放/归一化 :将不同量纲的特征缩放到同一尺度

    如[0,1]区间或标准正态分布,这对于基于距离的模型(如SVM、KNN)至关重要。

步骤1.3:模型选择与训练
  1. 划分数据集:将数据分为训练集(用于训练模型)、验证集(用于调参和选择模型)和测试集(用于最终评估模型性能)。

  2. 选择算法 :根据问题类型(分类、回归、聚类等)和数据特点选择合适的传统ML算法。

    经典算法举例:

    1)线性模型(线性回归、逻辑回归)

    2)支持向量机(SVM)

    3)决策树及其集成方法(随机森林、梯度提升树如XGBoost, LightGBM)

    4)朴素贝叶斯

    5)K近邻(KNN)

    6)聚类算法(K-Means)

  3. 训练模型:在训练集上使用优化算法(如梯度下降、最大似然估计)来学习模型参数。

步骤1.4:模型评估与调优
  1. 评估指标 :使用测试集评估模型性能。

    1)分类:准确率、精确率、召回率、F1分数、AUC。

    2)回归:均方误差(MSE)、平均绝对误差(MAE)、R²分数。

  2. 超参数调优 :调整模型的预设参数

    如SVM的核函数与惩罚系数C、随机森林的树数量与深度。

    常用方法:网格搜索、随机搜索、贝叶斯优化。

  3. 验证与选择:在验证集上比较不同模型或不同超参数配置的表现,选择最优者。

步骤2:模型部署和预测
  1. 模型部署:将训练好的模型固化为API服务、嵌入到应用程序或系统中。

  2. 预测推断:对新输入的数据(需经过与训练数据相同的特征工程处理流程)进行预测。

  3. 性能监控与更新:监控模型在生产环境中的表现。当数据分布发生变化(概念漂移)或性能下降时,需要重新收集数据、重新训练和更新模型。

相关推荐
mygljx16 小时前
spring-ai 下载不了依赖spring-ai-openai-spring-boot-starter
java·人工智能·spring
hsling松子16 小时前
基于 PaddleOCR-VL 与 PaddleFormers 的多模态文档解析微调项目
人工智能·计算机视觉·语言模型·自然语言处理·ocr
AEIC学术交流中心17 小时前
【快速EI检索 | ACM出版】第三届数字化社会与人工智能国际学术会议(DSAI 2026)
人工智能
Lynn_mg17 小时前
Opencv,contrib安装
人工智能·opencv·计算机视觉
User_芊芊君子17 小时前
2026最新Python+AI入门指南:从零基础到实战落地,避开90%新手坑
开发语言·人工智能·python
lzq60317 小时前
如何利用AI生成可视化图表(统计图、流程图、思维导图……)免代码一键绘制图表
人工智能·aigc·数据可视化
禁默17 小时前
【2025年度总结】从代码萌新到万粉博主:AI赋能下的破局与生长
人工智能·年度总结
艾莉丝努力练剑17 小时前
【脉脉】AI创作者崛起:掌握核心工具,在AMA互动中共同成长
运维·服务器·c++·人工智能·安全·企业·脉脉
伊织code17 小时前
AI 会议活动及2026活动计划一览
人工智能·ai·nvidia·活动·ces·waic·vivatech