AI大模型-核心概念-机器学习

目的

为避免一学就会、一用就废,这里做下笔记

说明

本文内容紧接前文-AI发展史

机器学习

是什么

从范畴看 :机器学习是实现AI的一种途径,是一个专门的学科,除此之外,还有基于规则的专家系统、群体智能等其他途径
从内涵看:机器学习,就是从数据中分析获得规律,并利用规律对未知数据进行预测、分类或者决策的过程。

为什么

因为人类终于同时具备了:

  1. 强烈的愿望(让机器自主获得知识);
  2. 清晰的理论路径(统计学习、神经网络);
  3. 充足的"养料"(大数据);
  4. 强大的"消化器官"(算力);
  5. 广泛的应用场景(商业、科研、社会需求)。

这就像一门新科学的诞生:当"问题"、"方法"和"条件"同时成熟,学科便水到渠成地出现了。机器学习不是替代人类,而是延伸了人类从数据中获取洞见的能力,成为了数字时代的"基础科学"之一

怎么办

(传统)机器学习的步骤

步骤1:模型训练
步骤1.1:数据收集与预处理
  1. 获取数据:从数据库、日志、传感器等来源收集原始数据。

  2. 数据清洗

    1)处理缺失值(删除、填充均值/中位数等)。

    2)处理异常值。

    3)纠正不一致的数据。

  3. 数据格式化:确保数据是结构化的表格形式(如CSV),每一行是一个样本,每一列是一个特征。

步骤1.2:特征工程(最核心、最耗时的步骤)

这是传统机器学习的灵魂,目标是从原始数据中提取、构造出对预测任务最有用的特征。这是一个 "人工智慧" 密集型过程。

  1. 特征提取 :将原始数据转化为可用的数值特征

    例如:从文本中提取词频(TF-IDF),从图像中提取颜色直方图、SIFT特征。

  2. 特征构造/转换 :利用领域知识创造新的特征

    例如:从"出生日期"构造出"年龄";从"交易次数"和"总金额"构造出"平均交易额"。

  3. 特征选择 :从所有特征中挑选出最重要的子集,以降低维度、防止过拟合、提升效率。

    方法:过滤法(如相关系数)、包裹法(如递归特征消除)、嵌入法(如Lasso回归)。

  4. 特征缩放/归一化 :将不同量纲的特征缩放到同一尺度

    如[0,1]区间或标准正态分布,这对于基于距离的模型(如SVM、KNN)至关重要。

步骤1.3:模型选择与训练
  1. 划分数据集:将数据分为训练集(用于训练模型)、验证集(用于调参和选择模型)和测试集(用于最终评估模型性能)。

  2. 选择算法 :根据问题类型(分类、回归、聚类等)和数据特点选择合适的传统ML算法。

    经典算法举例:

    1)线性模型(线性回归、逻辑回归)

    2)支持向量机(SVM)

    3)决策树及其集成方法(随机森林、梯度提升树如XGBoost, LightGBM)

    4)朴素贝叶斯

    5)K近邻(KNN)

    6)聚类算法(K-Means)

  3. 训练模型:在训练集上使用优化算法(如梯度下降、最大似然估计)来学习模型参数。

步骤1.4:模型评估与调优
  1. 评估指标 :使用测试集评估模型性能。

    1)分类:准确率、精确率、召回率、F1分数、AUC。

    2)回归:均方误差(MSE)、平均绝对误差(MAE)、R²分数。

  2. 超参数调优 :调整模型的预设参数

    如SVM的核函数与惩罚系数C、随机森林的树数量与深度。

    常用方法:网格搜索、随机搜索、贝叶斯优化。

  3. 验证与选择:在验证集上比较不同模型或不同超参数配置的表现,选择最优者。

步骤2:模型部署和预测
  1. 模型部署:将训练好的模型固化为API服务、嵌入到应用程序或系统中。

  2. 预测推断:对新输入的数据(需经过与训练数据相同的特征工程处理流程)进行预测。

  3. 性能监控与更新:监控模型在生产环境中的表现。当数据分布发生变化(概念漂移)或性能下降时,需要重新收集数据、重新训练和更新模型。

相关推荐
kaizq4 小时前
大语言模型典型本地搭建及其应用
人工智能·ollama·cherry studio·文本对话聊天·知识库/代码库·mcp服务编制·大语言模型llm本地应用
wenzhangli74 小时前
2025软件行业寒冬突围:破解AI编程冲击与项目制困局,一拖三闭环方案成破局关键
人工智能·ai编程
汽车仪器仪表相关领域4 小时前
全自动化精准检测,赋能高效年检——NHD-6108全自动远、近光检测仪项目实战分享
大数据·人工智能·功能测试·算法·安全·自动化·压力测试
夜雨深秋来4 小时前
都2026年了你还不知道AI工程化!
人工智能·代码规范
●VON4 小时前
AI 伦理治理实操指南:从原则到生产线
人工智能
星浩AI4 小时前
Google 官方发布:让你的 AI 编程助手"边写、边看、边调",像人类开发者一样工作
人工智能·后端·开源
Codebee4 小时前
SkillFlow:回归本质的AI能力流程管控
人工智能
巫山老妖5 小时前
2026 年 AI 趋势深度研究报告
人工智能
CodeLove·逻辑情感实验室5 小时前
深度解析:当 NLP 试图解构爱情——情感计算(Affective Computing)的伦理边界与技术瓶颈
人工智能·深度学习·自然语言处理·赛朋克