机器学习(西瓜书)学习——绪论

术语按照概念类别可分为五个表格:

1. 术语

1.1 基本概念与数据表示

中文术语 英文术语 符号表示 解释
机器学习 Machine Learning -- 通过计算手段利用经验改善系统自身性能的学科
模型 Model -- 由算法通过学习(训练)数据而创建出来的数学函数或程序​​
数据集 Dataset D D D 一组记录的集合,每条记录描述一个事件或对象
样本/示例 Sample/Instance x x x 数据集中的单条记录,描述事件或对象的特征
属性/特征 Attribute/Feature -- 描述样本的某个特性(如"色泽"、"重量")
属性值 Attribute value x i x_i xi 属性取到的具体值(如"青绿"、"浊响")。
属性空间/样本空间 Attribute Space/Sample Space X \mathcal{X} X 由所有属性张成的多维空间
特征向量 Feature Vector x = ( x 1 ; x 2 ; ...   ; x d ) \boldsymbol{x} = (x_1;x_2;\dots;x_d) x=(x1;x2;...;xd) 样本在属性空间中的坐标表示形式
维数 Dimensionality d d d 样本属性的个数(特征向量的维度)
标记 Label y y y 样本的"结果"信息(如"好瓜"或"坏瓜")
样例 Example ( x , y ) (\boldsymbol{x}, y) (x,y) 拥有标记信息的样本(即(特征向量, 标记)对)
标记空间/输出空间 Label Space/Output Space Y \mathcal{Y} Y 所有可能标记的集合(如{好瓜, 坏瓜}

1.2 学习过程与模型构建

中文术语 英文术语 符号表示 解释
学习/训练 Learning/Training -- 从数据中获取模型的过程
训练数据 Training Data -- 用于训练模型的数据集
训练样本 Training Sample -- 训练数据中的单个样本
训练集 Training Set D t r a i n D_{train} Dtrain 包含多个训练样本的集合
假设 Hypothesis -- 学习算法对数据内在规律的潜在描述
假设 空间 Hypothesis Space​​ H \mathcal{H} H 学习算法​​所有可能考虑的假设(函数)的集合​​
真相/真实 Ground Truth -- 数据中隐含的客观规律(理想模型)
学习器 Learner -- 学习算法的具体实现程序
独立同分布 Independent and Identically Distributed, i.i.d. i.i.d. 样本独立且服从相同分布的基本前提

1.3 任务类型与学习范式

中文术语 英文术语 符号表示 解释
分类 Classification -- 预测离散标记的任务(如判断好瓜/坏瓜)
回归 Regression -- 预测连续数值标记的任务(如预测西瓜成熟度)
二分类 Binary Classification -- 仅两个类别的分类任务
多分类 Multi-Class Classification -- 类别多于两个的分类任务
正类 / 反类 Positive / Negative Class -- 二分类中的两个类别,通常称关注的类别为正类
聚类 Clustering -- 在无标记条件下将样本按相似性划分为若干个簇
监督学习 Supervised Learning -- 训练数据包含标记信息的学习范式
无监督学习 Unsupervised Learning -- 训练数据无标记信息的学习范式

1.4 模型评估与验证

中文术语 英文术语 符号表示 解释
测试 Testing -- 使用学得模型预测新样本的过程
测试样本 Test Sample -- 用于评估模型性能的未参与训练的新样本
泛化 Generalization -- 模型适用于新样本的能力(核心目标)
泛化误差 Generalization Error -- 模型在新样本上的预测误差

1.5 学习原理与偏好

中文术语 英文术语 符号表示 解释
归纳 Induction -- 从具体样本中总结出一般规律的过程
演绎 Deduction -- 从一般规律推导出具体样本结论的过程
归纳偏好 Inductive Bias -- 学习算法对特定类型假设的偏好
奥卡姆剃刀 Occam's Razor -- 重要归纳偏好原则:优先选择"更简单"的模型
过拟合 Overfitting -- 模型过度拟合训练数据导致泛化能力下降
欠拟合 Underfitting -- 模型未能充分学习数据规律

2. 学习过程

训练集 学习算法 模型 测试集 预测结果

相关推荐
科技小花7 小时前
全球化深水区,数据治理成为企业出海 “核心竞争力”
大数据·数据库·人工智能·数据治理·数据中台·全球化
zhuiyisuifeng8 小时前
2026前瞻:GPTimage2镜像官网或将颠覆视觉创作
人工智能·gpt
徐健峰9 小时前
GPT-image-2 热门玩法实战(一):AI 看手相 — 一张手掌照片生成专业手相分析图
人工智能·gpt
weixin_370976359 小时前
AI的终极赛跑:进入AGI,还是泡沫破灭?
大数据·人工智能·agi
Slow菜鸟9 小时前
AI学习篇(五) | awesome-design-md 使用说明
人工智能·学习
冬奇Lab9 小时前
RAG 系列(五):Embedding 模型——语义理解的核心
人工智能·llm·aigc
深小乐9 小时前
AI 周刊【2026.04.27-05.03】:Anthropic 9000亿美元估值、英伟达死磕智能体、中央重磅定调AI
人工智能
码点滴9 小时前
什么时候用 DeepSeek V4,而不是 GPT-5/Claude/Gemini?
人工智能·gpt·架构·大模型·deepseek
狐狐生风9 小时前
LangChain 向量存储:Chroma、FAISS
人工智能·python·学习·langchain·faiss·agentai
波动几何9 小时前
CDA架构代码工坊技能cda-code-lab
人工智能