AI大模型-核心概念-机器学习

shangjian0072026-01-12 19:06

目的

为避免一学就会、一用就废，这里做下笔记

说明

本文内容紧接前文-AI发展史

机器学习

是什么

从范畴看 ：机器学习是实现AI的一种途径，是一个专门的学科，除此之外，还有基于规则的专家系统、群体智能等其他途径
从内涵看：机器学习，就是从数据中分析获得规律，并利用规律对未知数据进行预测、分类或者决策的过程。

为什么

因为人类终于同时具备了：

强烈的愿望（让机器自主获得知识）；
清晰的理论路径（统计学习、神经网络）；
充足的"养料"（大数据）；
强大的"消化器官"（算力）；
广泛的应用场景（商业、科研、社会需求）。

这就像一门新科学的诞生：当"问题"、"方法"和"条件"同时成熟，学科便水到渠成地出现了。机器学习不是替代人类，而是延伸了人类从数据中获取洞见的能力，成为了数字时代的"基础科学"之一

怎么办

(传统)机器学习的步骤

步骤1：模型训练

步骤1.1：数据收集与预处理

获取数据：从数据库、日志、传感器等来源收集原始数据。
数据清洗 ：

1）处理缺失值（删除、填充均值/中位数等）。

2）处理异常值。

3）纠正不一致的数据。
数据格式化：确保数据是结构化的表格形式（如CSV），每一行是一个样本，每一列是一个特征。

步骤1.2：特征工程（最核心、最耗时的步骤）

这是传统机器学习的灵魂，目标是从原始数据中提取、构造出对预测任务最有用的特征。这是一个 "人工智慧" 密集型过程。

特征提取 ：将原始数据转化为可用的数值特征

例如：从文本中提取词频（TF-IDF），从图像中提取颜色直方图、SIFT特征。
特征构造/转换 ：利用领域知识创造新的特征

例如：从"出生日期"构造出"年龄"；从"交易次数"和"总金额"构造出"平均交易额"。
特征选择 ：从所有特征中挑选出最重要的子集，以降低维度、防止过拟合、提升效率。

方法：过滤法（如相关系数）、包裹法（如递归特征消除）、嵌入法（如Lasso回归）。
特征缩放/归一化 ：将不同量纲的特征缩放到同一尺度

如 $0,1$ 区间或标准正态分布，这对于基于距离的模型（如SVM、KNN）至关重要。

步骤1.3：模型选择与训练

划分数据集：将数据分为训练集（用于训练模型）、验证集（用于调参和选择模型）和测试集（用于最终评估模型性能）。
选择算法 ：根据问题类型（分类、回归、聚类等）和数据特点选择合适的传统ML算法。

经典算法举例：

1）线性模型（线性回归、逻辑回归）

2）支持向量机（SVM）

3）决策树及其集成方法（随机森林、梯度提升树如XGBoost, LightGBM）

4）朴素贝叶斯

5）K近邻（KNN）

6）聚类算法（K-Means）
训练模型：在训练集上使用优化算法（如梯度下降、最大似然估计）来学习模型参数。

步骤1.4：模型评估与调优

评估指标 ：使用测试集评估模型性能。

1）分类：准确率、精确率、召回率、F1分数、AUC。

2）回归：均方误差（MSE）、平均绝对误差（MAE）、R²分数。
超参数调优 ：调整模型的预设参数

如SVM的核函数与惩罚系数C、随机森林的树数量与深度。

常用方法：网格搜索、随机搜索、贝叶斯优化。
验证与选择：在验证集上比较不同模型或不同超参数配置的表现，选择最优者。

步骤2：模型部署和预测

模型部署：将训练好的模型固化为API服务、嵌入到应用程序或系统中。
预测推断：对新输入的数据（需经过与训练数据相同的特征工程处理流程）进行预测。
性能监控与更新：监控模型在生产环境中的表现。当数据分布发生变化（概念漂移）或性能下降时，需要重新收集数据、重新训练和更新模型。

上一篇：vue3杂记

下一篇：Bootstrap和application.yml

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……