机器学习核心知识点汇总

*本文为学习笔记,借鉴各类资料编写,欢迎指正和交流。

一、基础概念与总体流程

1. 机器学习的两种经典定义

  • Arthur Samuel:使计算机无需显式编程即可学习的研究领域。

  • Tom Mitchell:对于任务 T、性能指标 P、经验 E,若程序在 E 下对 T 的 P 随 E 增加而提升,则称该程序从 E 中学习。

2. 学习类型

  • 监督学习、无监督学习、半监督学习。

3. 任务类型

  • 回归(连续输出)、分类(离散标签)、聚类(无标签分组)。

4. 通用流程 7 步

数据获取 → 特征提取 → 数据预处理 → 数据标准化 → 降维 → 训练模型 → 评估模型。

5. 评估指标

  • 回归:MSE、RMSE、R²。

  • 分类:Accuracy、Precision、Recall、混淆矩阵、ROC-AUC。

  • 聚类:轮廓系数、Calinski-Harabasz(无需真实标签);ARI、AMI、V-measure、FMI(需真实标签)。

二、回归模型与正则化

1. 一元/多元线性回归

ŷ = w x + b; ŷ = w₁x₁ + ... + wₙxₙ + b

2. 最小二乘闭式解

w = (XᵀX)⁻¹Xᵀy

3. 损失函数

J(w,b) = 1/m Σᵢ(ŷᵢ − yᵢ)²

4. 岭回归(L2 正则)

J_Ridge = MSE + α Σⱼ wⱼ²

5. Lasso 回归(L1 正则)

J_Lasso = MSE + α Σⱼ |wⱼ|

6. 多项式回归(升维转线性)

先使用 PolynomialFeatures(degree=d) 将原始特征扩展为 d 阶多项式,再用线性模型求解。

三、分类模型

1. 逻辑回归

  • 二分类:h(x)=σ(w·x+b),σ(z)=1/(1+e^(−z))

  • 多分类(softmax):P(y=k|x)=e^(wₖ·x)/Σ_c e^(w_c·x)  损失(交叉熵):J=−1/m Σᵢ[yᵢ log h_θ(xᵢ)+(1−yᵢ)log(1−h_θ(xᵢ))]

2. KNN

  • 分类:ŷ=mode({yᵢ | xᵢ ∈ N_k(x)})

  • 回归:ŷ=1/k Σ_{xᵢ ∈ N_k(x)} yᵢ

  • 距离(PPT 列出):闵可夫斯基、曼哈顿(p=1)、欧氏(p=2)、切比雪夫(p→∞)、余弦相似度。

3. 朴素贝叶斯

  • 贝叶斯公式:P(y|x)=P(x|y)P(y)/P(x)

  • 条件独立:P(x|y)=Πⱼ P(xⱼ|y)

  • 高斯 NB 概率密度:P(xⱼ|y)=1/(√(2πσ²ᵧⱼ))exp(−(xⱼ−μᵧⱼ)²/(2σ²ᵧⱼ))

4. SVM

  • 硬间隔:max 2/‖w‖ s.t. yᵢ(w·xᵢ+b)≥1

  • 软间隔:min ½‖w‖²+CΣξᵢ s.t. yᵢ(w·xᵢ+b)≥1−ξᵢ, ξᵢ≥0

  • 核函数(PPT 表格):linear、poly、rbf、sigmoid。

四、信息论与决策树

1. 信息量与熵

I(p)=−log₂ p; H(X)=−Σᵢ pᵢ log₂ pᵢ

2. 条件熵与信息增益

H(Y|X)=Σₓ P(x)H(Y|X=x); Gain(D,A)=H(D)−H(D|A)

3. ID3:选最大信息增益特征划分。

4. C4.5:选最大增益率 GainRatio=Gain/SplitInfo。

5. CART 分类:最小化基尼指数 Gini=1−Σₖ pₖ²。

6. CART 回归:最小化 MSE=1/m Σ(ŷᵢ−yᵢ)²。

五、集成学习

1. Bagging

  • 回归:ŷ=1/T Σ ŷ_t

  • 分类:ŷ=mode(ŷ_t)

2. 随机森林:在 Bagging 基础上再随机抽特征子集。

3. Boosting

  • AdaBoost:迭代调整样本权重。

  • GBDT:新树拟合残差 r_{t,i}=yᵢ−ŷ_{t−1,i}。

4. 超参数搜索

  • 网格搜索:GridSearchCV 暴力遍历。

  • 随机搜索:RandomizedSearchCV 随机采样。

六、聚类

1. K-means 目标:min Σ ‖xᵢ−μ_{cᵢ}‖²。

2. 距离(PPT 列出):闵可夫斯基、欧氏、曼哈顿、切比雪夫、余弦、马氏、汉明。

3. DBSCAN

  • ε-邻域:N_ε(x)={x′ | ‖x−x′‖≤ε}

  • 核心点:|N_ε(x)|≥MinPts

4. 轮廓系数:s(i)=(b(i)−a(i))/max{a(i),b(i)}。

七、神经网络

1. MLP 结构:输入层 → 若干隐藏层 → 输出层。

2. 激活函数:identity、logistic、tanh、relu。

3. 损失

  • 回归:MSE=1/m Σ(ŷᵢ−yᵢ)²

  • 分类:交叉熵=−1/m Σᵢ Σₖ y_{ik} log ŷ_{ik}

八、实践指令汇总

  • 训练/测试划分:train_test_split(test_size=0.2, shuffle=True)

  • 交叉验证:cross_val_score(model, X, y, cv=5)

  • 网格搜索:GridSearchCV(estimator, param_grid)

  • 随机搜索:RandomizedSearchCV(estimator, param_distributions)

  • 标准化:MinMaxScaler、StandardScaler

  • 降维:PCA(n_components=r)

  • 画树:sklearn.tree.plot_tree(dt, filled=True, feature_names=..., class_names=...)

相关推荐
会飞的老朱3 小时前
医药集团数智化转型,智能综合管理平台激活集团管理新效能
大数据·人工智能·oa协同办公
聆风吟º4 小时前
CANN runtime 实战指南:异构计算场景中运行时组件的部署、调优与扩展技巧
人工智能·神经网络·cann·异构计算
Codebee6 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º7 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys7 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56787 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子7 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
CRzkHbaXTmHw7 小时前
探索Flyback反激式开关电源的Matlab Simulink仿真之旅
大数据
智驱力人工智能8 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算
七夜zippoe8 小时前
CANN Runtime任务描述序列化与持久化源码深度解码
大数据·运维·服务器·cann