机器学习 —— 浅析

一、概念

AI: 人工智能 (像人一样模拟代替人类)

ML:机器学习 (从数据中获取规律,来了一个新的数据,产生一个新的预测)

小结:1.提供数据(历史数据)

2.训练模型(公式)

3.提供测试数据

4.对测试数据进行预测

DL: 深度学习 (大脑仿生,一层一层的神经元模拟万事万物)

发展史:

1.1956年提出"人工智能"这一术语

2.1962. 跳棋

3.1997 国际象棋

4.2016 AlphaGo 围棋

==== 大模型预训练模型 ====

5.2017年,自然语音处理NLP的Transformer框架出现

6.2022,chatGPT的出现,进入到大模型AIGC发展阶段

AI 发展三要素:

数据、算法、算力

二、机器学习常用术语:

样本(sample):一行数据就是一个样本:多个样本组成数据集:有时一条样本被叫成一条记录

特征(feature):一列数据一个特征,有时也被称为属性

标签/目标(label/target):模型要预测的那一列数据。

特征是从数据中抽取出来的,对结果预测有用信息。。

训练集:用来训练模型的数据集

测试集:用来测试模型的数据集

x_train:训练集特征 x_test:测试集特征

y_train:训练集标签 预测-> y_test:测试集标签

一般划分比例7:3, 8:2

训练集和测试集

三、机器学习算法分类

1.监督学习

(有特征、有标签) 即 (有训练数据 x_train + 有标签 y_train)

(预测结果) -> 案例:"猫狗分类/房价预测"

有监督问题&回归问题

如果标签是连续的 即回归

如果标签是离散的 即分类

🔹 离散 vs 连续(看输出空间)
类型 特点 典型例子
离散(Discrete) 取值有限或可数,值之间没有"中间状态",强调"种类"或"状态" 猫/狗、是/否、手写数字0~9、用户等级A/B/C
连续(Continuous) 取值在某个区间内可以是任意实数,理论上无限可分,强调"大小"和"度量" 房价(350.2万)、温度(23.5℃)、点击率(0.037)、身高
🔹 分类 vs 回归(看任务目标)
任务 对应目标类型 预测本质 典型算法 评估指标
分类(Classification) 离散 "是什么"(定性) 逻辑回归、SVM、决策树分类、随机森林、XGBoost分类、神经网络分类 准确率、精确率、召回率、F1、ROC-AUC
回归(Regression) 连续 "是多少"(定量) 线性回归、岭/Lasso回归、决策树回归、SVR、XGBoost回归 MSE、RMSE、MAE、R²
2.无监督学习.

(有特征、无标签) 即 聚类分析,发现事务内部的关系

(发现潜在结构) 案例: "物以类聚人以群分"

3.半监督

(有特征、部分有标签,部分无标签)

(降低数据标记的难度)

大大降低标记成本

拿部分有标签的数据进行训练 训练出来的模型,让他去给没有标签的数据进行预测标签!!

4.强化学习

(长期利益最大化) -> 案例: 学下棋

让机器自己学习,然后给机器奖励,让机器自己学习。

得到更多奖励,强化去做能得到奖励的事情

agent 根据环境状态进行行动获得最多的累计奖励。

四、机器学习建模流程

在整个建模流程中,数据基本处理、特征工程一般是耗时、耗精力最多的。

1.获取数据

获取经验数据、图像数据、文本数据......

2.数据基本处理

数据缺失值处理、异常值处理......

3.特征工程

利用专业背景知识和技巧处理数据,让机器学习算法效果最好。

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

<1> 特征提取

从原始数据提取和任务相关特征

<2>特征预处理

解决量纲问题:比如身高,体重 单位不统一 (归一化,标准化)

( 比如有些特征对模型影响很大,比如房价有朝向,楼层,面积等等特征,其中面积影响就比较大,涉及到权重问题。)

<3>特征降维

原始特征:[x₁, x₂, x₃, ..., xₙ] (n维)

↓ 降维处理

新特征:[z₁, z₂, ..., zₖ] (k维,k << n)

<4>特征选择

从已经有的特征中,找出子集

比如原来10个特征,选择其中6个来用

<5> 特征组合

利用已有的特征,组合成新的特征

比如房子的 (朝向+面积)-> (新特征)

把多个特征合并成一个特征,利用乘法或者加法来完成

4.机器学习(模型训练)
<1> 线性回归
<2> 逻辑回归
<3> 决策数
<4> GBDT
5.模型评估
<1> 回归评测指标
<2> 分类评测指标
<3> 聚类评测指标

五、拟合

1.拟合 fitting 用在机器学习领域,用来表示模型对样本点的拟合情况

2.欠拟合 under-fitting 模型在训练集上表现很差、在测试集表现也很差

3.过拟合 over-fitting 模型在训练集表现很好、在测试集表现很差

泛化 Generalization: 模型在新数据集(非训练数据)上的表现好坏能力。

奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型的优先选取。

这里可以理解为:

开发过程:

过拟合和欠拟合:模型在训练集和测试集效果

上线:

泛化:评估模型在新数据集上的效果

相关推荐
前端 贾公子2 小时前
CC Switch == 配置指南
人工智能
要退休的攻城狮2 小时前
跳到千问挖的坑里去了
c++·人工智能·嵌入式硬件·visualstudio
KC2702 小时前
制造业企业OpenClaw类AI智能体安全配置手册
人工智能·安全
全栈开发圈2 小时前
新书速览|计算机视觉:YOLO目标检测原理与实践
人工智能·计算机视觉·目标跟踪
深邃-2 小时前
C语言内存函数
c语言·开发语言·数据结构·c++·算法
xiaoxiaoxiaolll2 小时前
Nature Communications:从原子尺度看石墨烯/水界面——机器学习模拟终结亲水/疏水之争
人工智能
炽烈小老头2 小时前
【每天学习一点算法 2026/04/03】二叉树的序列化与反序列化
学习·算法
数说星榆1812 小时前
罕见病例报告流程图学术论文用
论文阅读·人工智能·流程图
confiself2 小时前
openClaw-RL学习
人工智能