🧮 一、机器学习(Machine Learning)
✅ 定义:
让计算机"自动从数据中学习"的方法,而不是手动写规则。
🔨 分类方式:
类型 | 标签有无 | 应用示例 |
---|---|---|
监督学习 | 有标签 | 回归预测、分类任务 |
无监督学习 | 无标签 | 聚类、降维 |
半监督学习 | 部分有标签 | 提高训练效率 |
强化学习 | 奖励驱动 | 游戏、机器人控制 |
📦 常见模型:
-
线性回归:预测连续值(如房价)
-
逻辑回归:做二分类(如是否违约)
-
决策树:用"条件判断"做分类,容易理解
-
随机森林:多个决策树组合,效果更稳健
-
KNN:靠"邻居"投票分类,懒惰学习
-
SVM 支持向量机:寻找最优分界线分类
-
KMeans 聚类:自动把数据分成 K 类
-
XGBoost / GBDT:集成模型,用提升树叠加训练,性能好
🤖 二、深度学习(Deep Learning)
✅ 定义:
是机器学习的一个分支,用"人工神经网络"模拟大脑的学习方式,适合处理图像、语音、自然语言等复杂任务。
🧱 基本结构:
-
神经网络(ANN):输入 → 隐藏层 → 输出
-
激活函数:如 ReLU、Sigmoid,引入非线性
-
损失函数:如 MSE、交叉熵,衡量模型效果
-
优化器:如 SGD、Adam,更新权重参数
🧰 常见网络结构:
-
CNN(卷积神经网络):用于图像识别、目标检测
-
RNN(循环神经网络):处理序列数据,如语音、文本
-
LSTM / GRU:RNN 的改进版,能记住更长信息
-
Transformer:靠"注意力机制"实现并行处理,是 NLP 主力结构
-
BERT / GPT:基于 Transformer 的预训练语言模型,用于理解或生成语言
🧠 三、其他重点概念(易被问到)
-
过拟合 / 欠拟合:模型过强 or 过弱,对泛化能力影响大
-
交叉验证:稳定评估模型性能的方式
-
特征工程:清洗、选择、转换特征,提高模型表现
-
标准化 / 归一化:让特征数据处于统一尺度,加速训练
-
集成学习(Ensemble):多个模型组合,提升稳定性
-
训练 & 推理:训练是学习,推理是"用模型做预测"