算法选型 + 调参避坑指南

机器学习算法选型+调参避坑指南

这份指南聚焦实用选型策略 和核心参数调参技巧，结合项目落地场景（含嵌入式/车载系统轻量化需求），帮你快速选对算法、避开常见坑。

一、按任务类型选型+调参技巧

1. 回归任务（预测连续值：房价、销量、传感器数值）

算法	核心参数	调参技巧	避坑点
线性回归（含Lasso/Ridge）	1. 正则化类型：`penalty`（`l1`/`l2`） 2. 正则强度：`alpha`（越大正则越强）	1. 先试无正则，若过拟合（训练集准、测试集差）再加正则 2. 特征多且冗余→选`l1`（自动特征选择）；特征重要性相近→选`l2` 3. `alpha`用网格搜索（从`1e-5`到`1e2`），配合5折交叉验证	❌ 没做特征归一化：不同量纲特征会让系数失真（比如面积用㎡，价格用万元） ❌ 忽略多重共线性：比如同时用"面积"和"建筑面积"，会导致系数不稳定
ARIMA（时间序列预测）	1. 自回归阶数`p` 2. 差分阶数`d` 3. 移动平均阶数`q`	1. 先做平稳性检验（ADF检验），非平稳数据先做差分（`d`从0开始试，直到平稳） 2. 用ACF/PACF图选`p/q`：ACF拖尾、PACF截尾→选AR(`p`)；反之选MA(`q`) 3. 最优参数用AIC/BIC准则（值越小越好）	❌ 直接用非平稳数据建模：预测结果会发散 ❌ 忽略季节性：比如销量有年度周期，需用SARIMA（季节性ARIMA）替代

2. 分类任务（预测离散类别：目标检测分类、故障诊断）

算法	核心参数	调参技巧	避坑点
决策树	1. 最大深度：`max_depth` 2. 最小样本分割数：`min_samples_split` 3. 划分准则：`criterion`（`gini`/`entropy`）	1. 先限制`max_depth`（从3开始），防止过拟合（树太深会记住噪声） 2. `min_samples_split`设为`5-10`：样本太少不分割 3. 分类任务优先`gini`（计算快），样本量小试`entropy`	❌ 不剪枝直接用：单棵决策树必过拟合 ❌ 特征没做类别编码：比如"颜色"是红/蓝，需转成数值
随机森林	1. 树的数量：`n_estimators` 2. 每棵树的最大特征数：`max_features` 3. 单棵树的最大深度：`max_depth`	1. `n_estimators`从100开始，逐步增加到指标稳定（一般200-500足够，再多提升不大） 2. `max_features`：分类任务设为`sqrt(特征数)`，回归设为`log2(特征数)` 3. 用袋外分数（OOB）评估，不用单独拆分验证集	❌ 树数量设太大：训练时间长，嵌入式设备跑不动 ❌ 忽略特征重要性：可以用模型输出的特征重要性，剔除无用特征
KNN	1. 近邻数：`n_neighbors`（k值） 2. 距离度量：`metric`（`euclidean`/`manhattan`） 3. 权重：`weights`（`uniform`/`distance`）	1. 先对特征做归一化（必须！比如距离对量纲敏感） 2. `k`值用交叉验证选：从3开始试，k太小过拟合，k太大欠拟合 3. 样本不均衡→选`distance`（近邻权重更高）	❌ 没归一化特征：比如"像素值0-255"和"坐标值0-1000"，距离会被坐标主导 ❌ 数据量大时用KNN：预测阶段计算慢，不适合嵌入式实时场景
朴素贝叶斯	1. 平滑参数：`alpha`	1. `alpha`是拉普拉斯平滑，防止概率为0（比如训练集没见过的词） 2. `alpha`从0.1开始试，太小会过拟合，太大模型太保守	❌ 用在特征强相关的场景：朴素贝叶斯假设特征独立，违背的话效果差 ❌ 忽略文本数据预处理：比如没分词、没去停用词，直接用原始文本
SVM	1. 惩罚系数：`C` 2. 核函数：`kernel`（`linear`/`rbf`/`poly`） 3. 核函数参数：`gamma`（RBF核）	1. 优先试线性核：速度快、解释性强，小样本高维数据效果好 2. 线性不可分→试RBF核，`C`和`gamma`一起调：`C`大=惩罚重（拟合复杂），`gamma`大=核函数影响范围小 3. 用网格搜索+交叉验证找最优`(C, gamma)`	❌ 大数据集用RBF核：训练时间极长，嵌入式设备无法部署 ❌ 不平衡数据不处理：可以给少数类加权重（`class_weight`参数）

3. 聚类任务（无监督分群：用户画像、异常检测）

算法	核心参数	调参技巧	避坑点
K-Means	1. 簇数：`n_clusters`（k值） 2. 初始聚类中心：`init`（`k-means++`/`random`）	1. 选`init='k-means++'`：避免初始中心选得差导致结果不稳定 2. 用肘部法则+轮廓系数选k值： - 肘部法则：看惯性值（簇内平方和），下降变缓的点是最优k - 轮廓系数：选最大值对应的k	❌ 盲目设k值：比如凭经验设k=3，实际数据可能是5个簇 ❌ 没做特征归一化：量纲不同会导致聚类偏向数值大的特征
DBSCAN	1. 邻域半径：`eps` 2. 最小点数：`min_samples`	1. 用k-距离图选`eps`：画每个样本到第k个近邻的距离，找"拐点"对应的距离 2. `min_samples`一般设为 2×特征维度，样本噪声多→调大 3. 密度不均的数据→试HDBSCAN（DBSCAN改进版）	❌ `eps`设太大：所有样本聚成一个簇；设太小：全是噪声点 ❌ 高维数据用DBSCAN：距离计算失效，先做降维（比如PCA）

4. 深度学习任务（复杂场景：图像识别、序列预测）

算法	核心参数	调参技巧	嵌入式/车载场景优化	避坑点
CNN（图像任务）	1. 卷积核大小/数量：`kernel_size`/`filters` 2. 池化方式：`max_pooling`/`avg_pooling` 3. Dropout率：`dropout_rate`	1. 卷积核优先用`3×3`（小核堆叠，参数少效果好） 2. 通道数逐步增加（比如32→64→128） 3. Dropout率设`0.2-0.5`，防止过拟合	1. 用轻量化架构：MobileNet、ShuffleNet（参数量是AlexNet的1/100） 2. 模型量化：把32位浮点转8位整型，速度提升4倍+	❌ 盲目加深网络：梯度消失，训练不收敛 ❌ 不做图像增强：训练集样本少，容易过拟合
LSTM（序列任务）	1. 隐藏层维度：`hidden_size` 2. Dropout率：`dropout` 3. 层数：`num_layers`	1. `hidden_size`从64/128开始试，太大容易过拟合 2. 层数最多2-3层，太深训练慢 3. 序列长→用双向LSTM （`bidirectional=True`）	1. 用GRU替代LSTM ：参数少，训练速度快，效果接近 2. 截断长序列：只保留关键时间步，减少计算量	❌ 序列没做归一化：输入值波动大，模型难收敛 ❌ 忽略序列填充：不同长度的序列要补成相同长度
Transformer（大模型任务）	1. 注意力头数：`num_heads` 2. 隐藏层维度：`d_model` 3. 前馈网络维度：`d_ff`	1. `num_heads`设为`8/16`，`d_model`要能被`num_heads`整除 2. `d_ff`一般是`d_model`的4倍 3. 小样本→用预训练模型微调（比如BERT-base）	1. 用轻量化变体：MobileBERT、DistilBERT（参数量减少70%） 2. 知识蒸馏：用大模型教小模型，保证精度的同时提速	❌ 直接训练大模型：显存不够，训练时间以天计 ❌ 短序列用Transformer：不如LSTM高效

二、通用调参避坑指南（所有算法都适用）

数据预处理是前提，不是可选步骤
- 缺失值：数值型用均值/中位数填充，分类型用众数填充；不要直接删除（尤其是小样本）。
- 归一化/标准化：距离类算法（KNN、SVM、K-Means）必须做；树模型（决策树、随机森林）可以不做。
- 异常值：用箱线图/3σ原则识别，回归任务要处理（异常值会拉偏直线），树模型对异常值不敏感。
用验证集调参，测试集只做最终评估

❌ 坑：用测试集调参→模型在测试集上过拟合，实际泛化能力差。

✅ 正确做法：训练集 → 拆分出验证集（比如7:2:1，训练:验证:测试），用验证集调参数，最后用测试集算指标。
调参顺序：先调结构参数，再调正则参数
- 比如随机森林：先调n_estimators（树数量）和max_depth（树深度）→ 再调max_features（特征数）→ 最后看是否需要加正则。
- 深度学习：先调网络结构（层数、通道数）→ 再调学习率、Batch Size → 最后加Dropout/正则。
嵌入式/车载系统额外注意：模型轻量化优先于精度
- 优先选小模型：比如用MobileNet代替ResNet50，用GRU代替LSTM。
- 模型压缩：量化（INT8量化）、剪枝（去掉冗余的卷积核/神经元）、知识蒸馏。
- 避免离线训练的"大模型思维"：实时性要求高的场景（比如车载目标检测），推理速度比精度重要。
不要迷信"最优参数"，要结合业务场景
- 比如医疗诊断：召回率（不漏诊）比准确率重要→调大模型的"敏感度"。
- 比如垃圾邮件识别：精确率（不误判）比召回率重要→调大模型的"特异性"。

三、快速选型流程图（项目落地直接用）

复制代码

1. 明确任务类型：回归/分类/聚类/复杂CV/NLP
2. 看数据规模：
   - 小样本（<1万）：选SVM、朴素贝叶斯、决策树
   - 大样本（>10万）：选随机森林、CNN/LSTM
3. 看部署场景：
   - 嵌入式/车载：优先选树模型、轻量化CNN/GRU，避免大模型
   - 服务器端：可以用复杂模型（Transformer、大CNN）
4. 看解释性要求：
   - 要求解释（比如风控、医疗）：选线性回归、决策树
   - 不要求解释（比如图像识别）：选深度学习、随机森林

算法选型 + 调参避坑指南

机器学习算法选型+调参避坑指南

一、 按任务类型选型+调参技巧

1. 回归任务（预测连续值：房价、销量、传感器数值）

2. 分类任务（预测离散类别：目标检测分类、故障诊断）

3. 聚类任务（无监督分群：用户画像、异常检测）

4. 深度学习任务（复杂场景：图像识别、序列预测）

二、 通用调参避坑指南（所有算法都适用）

三、 快速选型流程图（项目落地直接用）

一、按任务类型选型+调参技巧

二、通用调参避坑指南（所有算法都适用）

三、快速选型流程图（项目落地直接用）