机器学习核心知识点汇总

*本文为学习笔记,借鉴各类资料编写,欢迎指正和交流。

一、基础概念与总体流程

1. 机器学习的两种经典定义

  • Arthur Samuel:使计算机无需显式编程即可学习的研究领域。

  • Tom Mitchell:对于任务 T、性能指标 P、经验 E,若程序在 E 下对 T 的 P 随 E 增加而提升,则称该程序从 E 中学习。

2. 学习类型

  • 监督学习、无监督学习、半监督学习。

3. 任务类型

  • 回归(连续输出)、分类(离散标签)、聚类(无标签分组)。

4. 通用流程 7 步

数据获取 → 特征提取 → 数据预处理 → 数据标准化 → 降维 → 训练模型 → 评估模型。

5. 评估指标

  • 回归:MSE、RMSE、R²。

  • 分类:Accuracy、Precision、Recall、混淆矩阵、ROC-AUC。

  • 聚类:轮廓系数、Calinski-Harabasz(无需真实标签);ARI、AMI、V-measure、FMI(需真实标签)。

二、回归模型与正则化

1. 一元/多元线性回归

ŷ = w x + b; ŷ = w₁x₁ + ... + wₙxₙ + b

2. 最小二乘闭式解

w = (XᵀX)⁻¹Xᵀy

3. 损失函数

J(w,b) = 1/m Σᵢ(ŷᵢ − yᵢ)²

4. 岭回归(L2 正则)

J_Ridge = MSE + α Σⱼ wⱼ²

5. Lasso 回归(L1 正则)

J_Lasso = MSE + α Σⱼ |wⱼ|

6. 多项式回归(升维转线性)

先使用 PolynomialFeatures(degree=d) 将原始特征扩展为 d 阶多项式,再用线性模型求解。

三、分类模型

1. 逻辑回归

  • 二分类:h(x)=σ(w·x+b),σ(z)=1/(1+e^(−z))

  • 多分类(softmax):P(y=k|x)=e^(wₖ·x)/Σ_c e^(w_c·x)  损失(交叉熵):J=−1/m Σᵢyᵢ log h_θ(xᵢ)+(1−yᵢ)log(1−h_θ(xᵢ))

2. KNN

  • 分类:ŷ=mode({yᵢ | xᵢ ∈ N_k(x)})

  • 回归:ŷ=1/k Σ_{xᵢ ∈ N_k(x)} yᵢ

  • 距离(PPT 列出):闵可夫斯基、曼哈顿(p=1)、欧氏(p=2)、切比雪夫(p→∞)、余弦相似度。

3. 朴素贝叶斯

  • 贝叶斯公式:P(y|x)=P(x|y)P(y)/P(x)

  • 条件独立:P(x|y)=Πⱼ P(xⱼ|y)

  • 高斯 NB 概率密度:P(xⱼ|y)=1/(√(2πσ²ᵧⱼ))exp(−(xⱼ−μᵧⱼ)²/(2σ²ᵧⱼ))

4. SVM

  • 硬间隔:max 2/‖w‖ s.t. yᵢ(w·xᵢ+b)≥1

  • 软间隔:min ½‖w‖²+CΣξᵢ s.t. yᵢ(w·xᵢ+b)≥1−ξᵢ, ξᵢ≥0

  • 核函数(PPT 表格):linear、poly、rbf、sigmoid。

四、信息论与决策树

1. 信息量与熵

I(p)=−log₂ p; H(X)=−Σᵢ pᵢ log₂ pᵢ

2. 条件熵与信息增益

H(Y|X)=Σₓ P(x)H(Y|X=x); Gain(D,A)=H(D)−H(D|A)

3. ID3:选最大信息增益特征划分。

4. C4.5:选最大增益率 GainRatio=Gain/SplitInfo。

5. CART 分类:最小化基尼指数 Gini=1−Σₖ pₖ²。

6. CART 回归:最小化 MSE=1/m Σ(ŷᵢ−yᵢ)²。

五、集成学习

1. Bagging

  • 回归:ŷ=1/T Σ ŷ_t

  • 分类:ŷ=mode(ŷ_t)

2. 随机森林:在 Bagging 基础上再随机抽特征子集。

3. Boosting

  • AdaBoost:迭代调整样本权重。

  • GBDT:新树拟合残差 r_{t,i}=yᵢ−ŷ_{t−1,i}。

4. 超参数搜索

  • 网格搜索:GridSearchCV 暴力遍历。

  • 随机搜索:RandomizedSearchCV 随机采样。

六、聚类

1. K-means 目标:min Σ ‖xᵢ−μ_{cᵢ}‖²。

2. 距离(PPT 列出):闵可夫斯基、欧氏、曼哈顿、切比雪夫、余弦、马氏、汉明。

3. DBSCAN

  • ε-邻域:N_ε(x)={x′ | ‖x−x′‖≤ε}

  • 核心点:|N_ε(x)|≥MinPts

4. 轮廓系数:s(i)=(b(i)−a(i))/max{a(i),b(i)}。

七、神经网络

1. MLP 结构:输入层 → 若干隐藏层 → 输出层。

2. 激活函数:identity、logistic、tanh、relu。

3. 损失

  • 回归:MSE=1/m Σ(ŷᵢ−yᵢ)²

  • 分类:交叉熵=−1/m Σᵢ Σₖ y_{ik} log ŷ_{ik}

八、实践指令汇总

  • 训练/测试划分:train_test_split(test_size=0.2, shuffle=True)

  • 交叉验证:cross_val_score(model, X, y, cv=5)

  • 网格搜索:GridSearchCV(estimator, param_grid)

  • 随机搜索:RandomizedSearchCV(estimator, param_distributions)

  • 标准化:MinMaxScaler、StandardScaler

  • 降维:PCA(n_components=r)

  • 画树:sklearn.tree.plot_tree(dt, filled=True, feature_names=..., class_names=...)

相关推荐
一叶知秋dong8 小时前
Stable diffusion 工作原理
人工智能·深度学习·stable diffusion
zhumin7268 小时前
一种基于人类行为—内分泌映射的大语言模型动态情绪系统:从生理数据标定到虚拟激素驱动决策的工程化框架
人工智能·语言模型·自然语言处理
云烟成雨TD8 小时前
Spring AI 1.x 系列【46】MCP Security 模块
java·人工智能·spring
CRMEB系统商城8 小时前
CRMEB多商户系统(Java)v2.3公测版发布
java·开发语言·人工智能·小程序·开源·php
Samooyou8 小时前
RAG项目案例--02在线检索&过滤流水线
人工智能·python·ai·全文检索·检索
动能小子ohhh8 小时前
DocForge平台的设计与开发--文件上传接口的实现
开发语言·人工智能·python·langchain·ocr·fastapi
朴马丁8 小时前
预制菜的“数字厨房”:PLM如何支撑菜品标准化与供应链高效协同?
大数据·人工智能·食品行业·流程行业plm
小沈同学呀8 小时前
SpringAI+MCPServer实战-StreamableHTTP协议打造企业级AI工具服务
人工智能·微服务架构·springai·mcpserver·javaai·streamablehttp
net3m338 小时前
一阶软件低通滤波器算法
人工智能·算法
武汉唯众智创8 小时前
边缘端部署 AI 心理分析:自研边缘主机跑通人脸 + 语音双模态推理,不用云端算力详解
人工智能·ai心理健康·校园心理健康·多模态推理·人脸情绪识别·语音情感分析·心理健康信息化平台