深度学习旅程之数学统计底座

核心知识框架

学习算法与线性回归示例
• 理解"经验-任务-性能"三元组的 Mitchel 定义，它贯穿所有算法。
• 线性回归是所有深度网络优化的起点：特征加权求和→损失→参数更新。
监督与无监督学习
• 监督学习：标签可用，关注预测准确率；无监督学习：标签缺失，关注数据结构揭示。
• 在深度学习中仍沿用此划分，但往往借助大量未标注数据做预训练。
泛化、正则化与容量
• 模型容量 U 形曲线：低容量→欠拟合，适中→最佳，过高→过拟合。
• 泛化误差 = 偏差 + 方差，正则化通过"增加偏差-减少方差"做贸易。
维数灾难与数据规模
• 高维输入迫使模型更深或更宽，同时需要 L1/L2、Dropout、早停等技术遏制复杂度。
超参数与验证集
• 学习率、正则化系数、批量大小皆属超参数；用验证集评估而非测试集，避免数据泄漏。
• 手动调参先判断当前点在 U 形曲线的哪一侧，再决定扩大还是收缩模型容量。
深度学习优势
• 语音、视觉等高维复杂任务得益于多层次特征提取，传统方法难以匹敌。
常见误区与调试技巧
误区观测现象调试建议
训练损失低但验证损失高过拟合增加正则化、数据增强、早停；或减少网络深度/宽度
训练损失和验证损失都高欠拟合提升模型容量，减少正则化，检查特征工程是否合理
训练损失下降慢学习率过小或存在局部停滞自动学习率调度，或改用动量、自适应优化器
实践流水线建议
数据：先做简单统计，确认分布与类别平衡。
模型：从小规模网络/浅决策树起步，快速跑通端到端流程。
评估：分三份---训练、验证、测试；绘制学习曲线，观察偏差-方差趋势。
正则化：L2 权重衰减 + Dropout 是深度网络标配；对小数据集可辅以数据增强。
超参数：网格搜索/随机搜索起步，后续可用贝叶斯优化或自动化 MLOps。
硬件：尽早引入 GPU/TPU，批量大小与学习率成正相关，可先固定批量再调整学习率。