机器学习核心知识点汇总

*本文为学习笔记,借鉴各类资料编写,欢迎指正和交流。

一、基础概念与总体流程

1. 机器学习的两种经典定义

  • Arthur Samuel:使计算机无需显式编程即可学习的研究领域。

  • Tom Mitchell:对于任务 T、性能指标 P、经验 E,若程序在 E 下对 T 的 P 随 E 增加而提升,则称该程序从 E 中学习。

2. 学习类型

  • 监督学习、无监督学习、半监督学习。

3. 任务类型

  • 回归(连续输出)、分类(离散标签)、聚类(无标签分组)。

4. 通用流程 7 步

数据获取 → 特征提取 → 数据预处理 → 数据标准化 → 降维 → 训练模型 → 评估模型。

5. 评估指标

  • 回归:MSE、RMSE、R²。

  • 分类:Accuracy、Precision、Recall、混淆矩阵、ROC-AUC。

  • 聚类:轮廓系数、Calinski-Harabasz(无需真实标签);ARI、AMI、V-measure、FMI(需真实标签)。

二、回归模型与正则化

1. 一元/多元线性回归

ŷ = w x + b; ŷ = w₁x₁ + ... + wₙxₙ + b

2. 最小二乘闭式解

w = (XᵀX)⁻¹Xᵀy

3. 损失函数

J(w,b) = 1/m Σᵢ(ŷᵢ − yᵢ)²

4. 岭回归(L2 正则)

J_Ridge = MSE + α Σⱼ wⱼ²

5. Lasso 回归(L1 正则)

J_Lasso = MSE + α Σⱼ |wⱼ|

6. 多项式回归(升维转线性)

先使用 PolynomialFeatures(degree=d) 将原始特征扩展为 d 阶多项式,再用线性模型求解。

三、分类模型

1. 逻辑回归

  • 二分类:h(x)=σ(w·x+b),σ(z)=1/(1+e^(−z))

  • 多分类(softmax):P(y=k|x)=e^(wₖ·x)/Σ_c e^(w_c·x)  损失(交叉熵):J=−1/m Σᵢ[yᵢ log h_θ(xᵢ)+(1−yᵢ)log(1−h_θ(xᵢ))]

2. KNN

  • 分类:ŷ=mode({yᵢ | xᵢ ∈ N_k(x)})

  • 回归:ŷ=1/k Σ_{xᵢ ∈ N_k(x)} yᵢ

  • 距离(PPT 列出):闵可夫斯基、曼哈顿(p=1)、欧氏(p=2)、切比雪夫(p→∞)、余弦相似度。

3. 朴素贝叶斯

  • 贝叶斯公式:P(y|x)=P(x|y)P(y)/P(x)

  • 条件独立:P(x|y)=Πⱼ P(xⱼ|y)

  • 高斯 NB 概率密度:P(xⱼ|y)=1/(√(2πσ²ᵧⱼ))exp(−(xⱼ−μᵧⱼ)²/(2σ²ᵧⱼ))

4. SVM

  • 硬间隔:max 2/‖w‖ s.t. yᵢ(w·xᵢ+b)≥1

  • 软间隔:min ½‖w‖²+CΣξᵢ s.t. yᵢ(w·xᵢ+b)≥1−ξᵢ, ξᵢ≥0

  • 核函数(PPT 表格):linear、poly、rbf、sigmoid。

四、信息论与决策树

1. 信息量与熵

I(p)=−log₂ p; H(X)=−Σᵢ pᵢ log₂ pᵢ

2. 条件熵与信息增益

H(Y|X)=Σₓ P(x)H(Y|X=x); Gain(D,A)=H(D)−H(D|A)

3. ID3:选最大信息增益特征划分。

4. C4.5:选最大增益率 GainRatio=Gain/SplitInfo。

5. CART 分类:最小化基尼指数 Gini=1−Σₖ pₖ²。

6. CART 回归:最小化 MSE=1/m Σ(ŷᵢ−yᵢ)²。

五、集成学习

1. Bagging

  • 回归:ŷ=1/T Σ ŷ_t

  • 分类:ŷ=mode(ŷ_t)

2. 随机森林:在 Bagging 基础上再随机抽特征子集。

3. Boosting

  • AdaBoost:迭代调整样本权重。

  • GBDT:新树拟合残差 r_{t,i}=yᵢ−ŷ_{t−1,i}。

4. 超参数搜索

  • 网格搜索:GridSearchCV 暴力遍历。

  • 随机搜索:RandomizedSearchCV 随机采样。

六、聚类

1. K-means 目标:min Σ ‖xᵢ−μ_{cᵢ}‖²。

2. 距离(PPT 列出):闵可夫斯基、欧氏、曼哈顿、切比雪夫、余弦、马氏、汉明。

3. DBSCAN

  • ε-邻域:N_ε(x)={x′ | ‖x−x′‖≤ε}

  • 核心点:|N_ε(x)|≥MinPts

4. 轮廓系数:s(i)=(b(i)−a(i))/max{a(i),b(i)}。

七、神经网络

1. MLP 结构:输入层 → 若干隐藏层 → 输出层。

2. 激活函数:identity、logistic、tanh、relu。

3. 损失

  • 回归:MSE=1/m Σ(ŷᵢ−yᵢ)²

  • 分类:交叉熵=−1/m Σᵢ Σₖ y_{ik} log ŷ_{ik}

八、实践指令汇总

  • 训练/测试划分:train_test_split(test_size=0.2, shuffle=True)

  • 交叉验证:cross_val_score(model, X, y, cv=5)

  • 网格搜索:GridSearchCV(estimator, param_grid)

  • 随机搜索:RandomizedSearchCV(estimator, param_distributions)

  • 标准化:MinMaxScaler、StandardScaler

  • 降维:PCA(n_components=r)

  • 画树:sklearn.tree.plot_tree(dt, filled=True, feature_names=..., class_names=...)

相关推荐
翱翔的苍鹰1 分钟前
当前主流的**开源大语言模型(LLM)的核心知识总结
人工智能·深度学习·自然语言处理
传说故事2 分钟前
【论文自动阅读】未来光流预测提升机器人控制与视频生成
人工智能·机器人·具身智能
MicrosoftReactor3 分钟前
技术速递|GitHub Copilot SDK 与混合 AI 实践:README 到 PPT 的自动化转换流程
人工智能·github·copilot
renhongxia15 分钟前
知识图谱如何在制造业实际落地应用
人工智能·语言模型·自然语言处理·aigc·知识图谱
Polaris_T7 分钟前
2本9硕AI人实习&秋招分享(回江苏版)
人工智能·经验分享·深度学习·求职招聘
亿信华辰软件8 分钟前
已经上了数据中台,还要做数据治理吗?
大数据·人工智能·数据治理
2501_941652779 分钟前
Grid-RCNN实战_基于香烟盒检测与识别的完整实现详解
人工智能·计算机视觉·目标跟踪
科研计算中心11 分钟前
机器学习数据处理太慢?从根源到解决方案的专业拆解
人工智能·机器学习
阿拉伯柠檬14 分钟前
Git原理与使用(一)
大数据·linux·git·elasticsearch·面试
亿信华辰软件17 分钟前
药企客商域主数据管理实践与挑战
大数据