机器学习系统详解

体系

理论

感知&记忆

获取数据、存储数据

学习

推理学习:自下而上,如数学。公理,证明,推论

数据学习:自上而下,如物理(可能有颠覆风险)。数据观测->理论解释->实验验证

决策

决策问题先给出抽象框架,

  • 决策变量
  • 目标函数与优化方向:目标与决策之间的关系
  • 约束:限制决策的范围

然后建模,将问题量化描述,再交给机器求解

开发

机器学习算法的任务是,基于给定的数据集和结构,求解一个优化问题以找到最佳的参数B0和B1,从而实现拟合度最大化。

工程部署

数据-模型-评估-部署

算法开发链路

数据集准备-数据集切分-模型训练-模型校验-模型测试

算法演进

底层逻辑

  • 算法工程师:把复杂的f()结构化,参数化;利用人类的先验知识,尽量缩小搜索空间
  • 算法:利用算力,在给定模型结构的框架下,在数据y~x的监督下,找到最优参数实现拟合
  • 尽量让算法来做

挑战

  • 可预测性:信号vs噪声
  • 欠拟合:模型未能捕捉数据基本规律 ,表现为训练误差和测试误差均高(模型过于简单,无法学习数据复杂度)
  • 过拟合:模型过度记忆训练数据噪声/特定样本 ,表现为训练误差低但测试误差高(模型复杂度过高,失去泛化性)
  • 时间稳定性:机器尝试学习的真实关系y~x是不是随时间变化的
  • 个性vs共性:比如预测癌症的模型,是否根据性别、年龄区分不同数据集

3种过拟合情况

本质:模型"死记硬背"训练数据中的噪声和特定模式,丧失对底层数据分布的泛化能力。

算法人员在以下开发步骤中的操作易"好心做坏事",导致过拟合

数据

原因:特征维度高

模型训练

原因:使用高阶多项式等,模型结构复杂

解法:模型内部有复杂性、波动性控制机制

模型校验

原因:模型数量多,有限校验集评估模型出现随机性,如基金经理排行榜

解法:增加校验集数据量;更高效地利用有限数据集(k重交叉验证)

统计类方法

主要思想

统计类方法核心为"从数据中推断总体规律",其哲学基础来自经典统计学

工作模式

统计类方法的工作流程强调严谨性、可重复性和可解释性,主要包括以下三个关键环节:

1. 特征工程

目标:使数据符合模型假设,提升模型稳定性和解释力。

操作 目的 常用方法
变量变换 满足线性、正态性假设 对数变换(log)、平方根、Box-Cox变换
处理异常值 减少极端值对参数估计的影响 使用IQR法则、Z-score检测并处理
离散化/分箱 捕捉非线性趋势 等频分箱、基于树的分箱(如决策树桩)
构造交互项 显式建模特征间协同效应 xx 2 、多项式项 x2
标准化/归一化 保证系数可比性 Z-score标准化(均值为0,方差为1)

2. 变量选择

目标:在众多候选变量中筛选出真正对响应变量有解释力的变量,防止过拟合。

常见策略:

方法 原理 优点 缺点
逐步回归 (Stepwise) 通过AIC/BIC逐步添加/删除变量 自动化,易于实现 易陷入局部最优,可能过拟合
Lasso回归 (L1正则化) 惩罚绝对系数和,强制部分系数为0 自动变量选择,适合高维数据 在强相关变量中随机选其一
岭回归 (L2正则化) 惩罚系数平方和,压缩但不归零 处理多重共线性效果好 不进行变量筛选
弹性网 (Elastic Net) L1 + L2 混合惩罚 兼顾Lasso和Ridge优点 超参数需调优
基于p值的筛选 保留p < 0.05的显著变量 统计意义明确 多重比较问题,易误判

推荐做法:结合领域知识 + 正则化方法 + 交叉验证,避免纯依赖p值。

3. 多模型结构比对

目标:在多个候选模型中选择最优结构,平衡拟合优度与复杂度。

常用比较方法:

方法 适用场景 特点
AIC(Akaike Information Criterion) 非嵌套模型比较 偏向稍复杂但预测能力强的模型
BIC(Bayesian Information Criterion) 大样本下更优 惩罚更重,倾向于简单模型
似然比检验(LRT) 嵌套模型比较(如全模型 vs 子集) 统计显著性检验,p值驱动
交叉验证(CV)误差 所有模型通用 最接近真实泛化误差,推荐使用
残差分析 模型诊断 QQ图看正态性,残差图看异方差、非线性

评估口径

  • 单点评价口径:针对单个样本或预测点的误差/正确性定义
  • 汇总方式:将多个单点结果聚合为整体指标的方法

回归任务

目标:预测连续值(如房价、温度、销售额)

  1. 单点评价口径(误差度量)
指标 定义 公式 特点
绝对误差(AE) 预测值与真实值之差的绝对值
直观,单位与目标一致
平方误差(SE) 差值的平方
放大大误差,利于优化(可导)
相对误差(RE) 以真实值为基准的误差比例
适用于量纲差异大的数据

说明:这些是"单样本"层面的误差,后续需通过"汇总方式"得到全局指标。

  1. 汇总方式(聚合策略)
汇总方式 对应全局指标 公式 优点 缺点
均值(Mean) MAE(Mean Absolute Error)
稳健,不易受异常值影响 不强调大错误
均方(Mean Square) MSE(Mean Squared Error)
数学性质好,广泛用于损失函数 对异常值敏感
分位数(Quantile) MAPE(Mean Absolute Percentage Error)
无量纲,便于跨任务比较 y__i≈0 时不稳定

二分类

目标:预测样本属于正类(1)或负类(0)

  1. 单点评价口径(预测正确性)

每个样本的预测结果可归为四类(混淆矩阵基础):

类型 条件 含义
TP(True Positive) 真实=1,预测=1 正确发现正类
FP(False Positive) 真实=0,预测=1 误报(错判为正)
FN(False Negative) 真实=1,预测=0 漏报(漏掉正类)
TN(True Negative) 真实=0,预测=0 正确识别负类
  1. 汇总方式(基于混淆矩阵的比率计算)
汇总逻辑 指标 公式 关注点
预测为正的可信度 精度(Precision) TP/TP +FP 少误报(FP)
真实为正的覆盖率 召回率(Recall) (又称查全率、灵敏度) TP/TP +FN 少漏报(FN)
整体正确比例 准确率(Accuracy) TP +TN/n 简单直观,但类别不平衡时失效
排序能力 AUC-ROC ROC曲线下面积 不依赖阈值,衡量模型整体判别能力

优势与劣势

优点:

  • 模型结构可读、结果可解释
  • 部署简单(两个向量乘一下)

缺点:

  • f()的线性结构约束
  • 特征工程负担重,需人工提取
  • 过拟合风险随数据规模上升而加剧

使用场景

推荐使用场景:

  • 需要向管理层、监管机构解释模型逻辑
  • 数据量较小,但需严谨推断
  • 关注变量重要性与因果关系
  • 实时性要求高,资源有限
  • 需输出置信区间或风险范围

不推荐场景:

  • 数据高度非线性(如图像识别)
  • 特征极多且自动组合复杂(如推荐系统)
  • 仅追求预测精度,不关心"为什么"

经典机器学习方法

主要思想

**重模型:**灵活且强大的模型结构f(),近似求解参数p

  • 引入非线性结构,把复杂结构参数化,用算法来解(数据驱动)
  • validation防止过拟合

**重特征:**通过加工特征X,融入人对问题的理解(先验知识)

线性模型拓展:Lasso

(Least Absolute Shrinkage and Selection Operator)

最小绝对收缩与选择算子

其基本原理是在普通最小二乘法的基础上,引入L1正则化项,通过最小化目标函数来实现模型的特征选择和系数稀疏化。

原理

  1. 普通线性回归(OLS)

目标:最小化预测误差

问题:不限制系数大小,容易过拟合,尤其当 pn 时。(p为特征β

数量)

  1. Lasso 回归(带 L1 正则化)

目标:

其中:

  • 第一项:残差平方和(RSS),衡量拟合优度
  • 第二项:L1 正则化项,所有系数绝对值之和
  • λ ≥0 :正则化参数,控制惩罚强度

λ =0 :退化为 OLS
λ →∞ :所有系数被压为 0

最优 λ :通过交叉验证选择

相关推荐
诚思报告YH1 小时前
普及化专业级3D扫描设备(三角结构光技术)市场洞察:未来六年复合年均增长率(CAGR)为4.6%
大数据·人工智能
橙-极纪元1 小时前
AI代码生产部署安全标准作业程序(SOP)的附件1:风险评估矩阵
人工智能·安全·矩阵
SunnyRivers1 小时前
理解人工智能与大语言模型(LLMs)
人工智能·大语言模型
好家伙VCC1 小时前
**发散创新:用 Rust构建多智能体系统,让分布式协作更高效**在人工智能快速演进的今天,**多智能体系统(
java·人工智能·分布式·python·rust
格林威1 小时前
Baumer相机汽车雨刮胶条磨损检测:实现寿命预测的 6 个关键技术,附 OpenCV+Halcon 实战代码!
人工智能·opencv·计算机视觉·汽车·视觉检测·工业相机·堡盟相机
陈天伟教授1 小时前
人工智能应用- 人机对战:01. AI 游戏
人工智能·深度学习·神经网络·游戏·自然语言处理·机器翻译
肾透侧视攻城狮1 小时前
《超越安装:构建可维护、高性能的TensorFlow专业开发环境》
人工智能·深度学习·tensorflow 环境搭建·conda 创建虚拟环境·开发工具安装·jupyter相关问题解决·tensorf开发环境优化
CoderJia程序员甲1 小时前
GitHub 热榜项目 - 日榜(2026-02-12)
人工智能·ai·大模型·github·ai教程
智算菩萨1 小时前
规模定律的边际递减与后训练时代的理论重构
人工智能·算法