术语按照概念类别可分为五个表格:
1. 术语
1.1 基本概念与数据表示
中文术语 | 英文术语 | 符号表示 | 解释 |
---|---|---|---|
机器学习 | Machine Learning | -- | 通过计算手段利用经验改善系统自身性能的学科 |
模型 | Model | -- | 由算法通过学习(训练)数据而创建出来的数学函数或程序 |
数据集 | Dataset | D D D | 一组记录的集合,每条记录描述一个事件或对象 |
样本/示例 | Sample/Instance | x x x | 数据集中的单条记录,描述事件或对象的特征 |
属性/特征 | Attribute/Feature | -- | 描述样本的某个特性(如"色泽"、"重量") |
属性值 | Attribute value | x i x_i xi | 属性取到的具体值(如"青绿"、"浊响")。 |
属性空间/样本空间 | Attribute Space/Sample Space | X \mathcal{X} X | 由所有属性张成的多维空间 |
特征向量 | Feature Vector | x = ( x 1 ; x 2 ; ... ; x d ) \boldsymbol{x} = (x_1;x_2;\dots;x_d) x=(x1;x2;...;xd) | 样本在属性空间中的坐标表示形式 |
维数 | Dimensionality | d d d | 样本属性的个数(特征向量的维度) |
标记 | Label | y y y | 样本的"结果"信息(如"好瓜"或"坏瓜") |
样例 | Example | ( x , y ) (\boldsymbol{x}, y) (x,y) | 拥有标记信息的样本(即(特征向量, 标记) 对) |
标记空间/输出空间 | Label Space/Output Space | Y \mathcal{Y} Y | 所有可能标记的集合(如{好瓜, 坏瓜} ) |
1.2 学习过程与模型构建
中文术语 | 英文术语 | 符号表示 | 解释 |
---|---|---|---|
学习/训练 | Learning/Training | -- | 从数据中获取模型的过程 |
训练数据 | Training Data | -- | 用于训练模型的数据集 |
训练样本 | Training Sample | -- | 训练数据中的单个样本 |
训练集 | Training Set | D t r a i n D_{train} Dtrain | 包含多个训练样本的集合 |
假设 | Hypothesis | -- | 学习算法对数据内在规律的潜在描述 |
假设 空间 | Hypothesis Space | H \mathcal{H} H | 学习算法所有可能考虑的假设(函数)的集合 |
真相/真实 | Ground Truth | -- | 数据中隐含的客观规律(理想模型) |
学习器 | Learner | -- | 学习算法的具体实现程序 |
独立同分布 | Independent and Identically Distributed, i.i.d. | i.i.d. | 样本独立且服从相同分布的基本前提 |
1.3 任务类型与学习范式
中文术语 | 英文术语 | 符号表示 | 解释 |
---|---|---|---|
分类 | Classification | -- | 预测离散标记的任务(如判断好瓜/坏瓜) |
回归 | Regression | -- | 预测连续数值标记的任务(如预测西瓜成熟度) |
二分类 | Binary Classification | -- | 仅两个类别的分类任务 |
多分类 | Multi-Class Classification | -- | 类别多于两个的分类任务 |
正类 / 反类 | Positive / Negative Class | -- | 二分类中的两个类别,通常称关注的类别为正类 |
聚类 | Clustering | -- | 在无标记条件下将样本按相似性划分为若干个簇 |
监督学习 | Supervised Learning | -- | 训练数据包含标记信息的学习范式 |
无监督学习 | Unsupervised Learning | -- | 训练数据无标记信息的学习范式 |
1.4 模型评估与验证
中文术语 | 英文术语 | 符号表示 | 解释 |
---|---|---|---|
测试 | Testing | -- | 使用学得模型预测新样本的过程 |
测试样本 | Test Sample | -- | 用于评估模型性能的未参与训练的新样本 |
泛化 | Generalization | -- | 模型适用于新样本的能力(核心目标) |
泛化误差 | Generalization Error | -- | 模型在新样本上的预测误差 |
1.5 学习原理与偏好
中文术语 | 英文术语 | 符号表示 | 解释 |
---|---|---|---|
归纳 | Induction | -- | 从具体样本中总结出一般规律的过程 |
演绎 | Deduction | -- | 从一般规律推导出具体样本结论的过程 |
归纳偏好 | Inductive Bias | -- | 学习算法对特定类型假设的偏好 |
奥卡姆剃刀 | Occam's Razor | -- | 重要归纳偏好原则:优先选择"更简单"的模型 |
过拟合 | Overfitting | -- | 模型过度拟合训练数据导致泛化能力下降 |
欠拟合 | Underfitting | -- | 模型未能充分学习数据规律 |
2. 学习过程
训练集 学习算法 模型 测试集 预测结果