2.1 学习目标
通过本章学习,读者应能够:
- 理解人工智能训练中"数据"的实际含义
- 正确认识样本、特征与标签
- 能从日常业务场景中抽象出数据结构
- 判断一个问题属于回归还是分类
- 使用 Python 对数据进行基本查看与拆分
本章重点在于:
把"现实问题"转化为"人工智能可以处理的问题"。
2.2 从业务角度理解什么是"数据"
在实际工作中,数据并不是抽象存在的。
它通常来源于:
- 系统日志
- 业务记录
- 用户行为
- 问卷或表单
例如,在一个简单的健身应用中,系统可能每天记录:
- 用户年龄
- 每日步数
- 运动时长
- 是否达标
这些记录汇总在一起,就形成了人工智能训练所需的数据。
对人工智能而言,数据就是对现实世界的"数字化描述"。
2.3 样本、特征与标签(结合真实场景)
2.3.1 样本:一次记录,一个对象
在人工智能训练中,样本通常表示一次完整记录。
以健身数据为例:
- 一个用户一天的运动记录
- 一个客户一次交易记录
- 一名学生一次考试结果
在表格中:
每一行通常就是一个样本。
2.3.2 特征:用来描述样本的信息
特征是对样本的描述性信息。
在健身场景中,可能包括:
- 年龄
- 性别
- 运动时长
- 心率
这些信息本身不是结果,但会影响结果。
2.3.3 标签:模型要学习和预测的目标
标签是模型要学习和预测的对象。
例如:
- 每日步数
- 是否达成运动目标
- 是否存在健康风险
在训练阶段,标签是已知的;
在预测阶段,标签是未知的。
2.3.4 一个通俗总结
可以用一句话记住三者关系:
特征是原因,标签是结果,样本是一次完整记录。
2.4 用一个业务示例理解数据结构
示例场景:健身用户每日数据(简化)
python
import pandas as pd
data = {
'age': [25, 30, 45, 35, 50],
'exercise_minutes': [30, 20, 10, 40, 15],
'calories_burned': [300, 200, 120, 380, 150],
'daily_steps': [8000, 6000, 3000, 10000, 4000]
}
df = pd.DataFrame(data)
print(df)
输出示意:
age exercise_minutes calories_burned daily_steps
0 25 30 300 8000
1 30 20 200 6000
2 45 10 120 3000
3 35 40 380 10000
4 50 15 150 4000
2.4.1 识别样本、特征与标签
在这个示例中:
-
样本:每一行(一天的数据)
-
特征:
ageexercise_minutescalories_burned
-
标签:
daily_steps
这是一个预测数值的任务。
2.4.2 用 Python 分离特征与标签
python
X = df[['age', 'exercise_minutes', 'calories_burned']]
y = df['daily_steps']
print(X)
print(y)
这一步是所有建模工作的起点。
2.5 人工智能中的常见问题类型
在理解数据后,下一步必须回答一个问题:
模型要预测的"结果",到底是什么类型?
2.5.1 回归问题:预测"多少"
回归问题的特点是:
- 预测结果是连续数值
常见业务示例:
- 预测每日步数
- 预测销售额
- 预测能耗或费用
本章中的健身示例,就是一个典型的回归问题。
2.5.2 分类问题:预测"属于哪一类"
分类问题的特点是:
- 预测结果是类别
例如:
- 是否达成运动目标(是 / 否)
- 用户是否存在风险
- 是否需要人工干预
如果我们将问题改为:
"该用户今天是否达成 8000 步目标?"
那么问题类型就变成了分类问题。
2.5.3 为什么问题类型不能选错
如果问题类型判断错误:
- 模型选择会出错
- 评估指标会无意义
- 结果无法用于实际决策
这是人工智能训练师在实际工作中必须首先判断的一步。
2.6 从现实问题到 AI 问题的判断方法
可以用以下思路快速判断:
- 预测一个具体数值 → 回归问题
- 判断是否 / 属于哪类 → 分类问题
这个判断方法简单,但非常实用。
2.7 本章小结
通过本章学习,应重点掌握:
- 数据是人工智能学习的基础
- 样本、特征、标签构成训练数据的核心结构
- 表格数据是最常见的训练形式
- 回归与分类是最基础、最常见的问题类型
这些内容将直接影响后续的数据处理和模型训练方式。
2.8 课后练习
一、判断题
- 在表格数据中,一行通常对应一个样本。
- 标签是用来描述样本特征的属性。
- 预测每日步数属于回归问题。
二、简答题
- 请结合一个业务场景,说明什么是特征,什么是标签。
- 为什么在建模前必须先判断问题类型?
三、实践题
请判断下列问题属于哪一类:
- 判断一名用户是否存在运动不足风险
- 预测下周某商品的销售数量
2.9 练习题参考答案
一、判断题答案
- 正确
- 错误
- 正确
二、简答题参考要点
第 1 题:
- 特征是用于描述对象的属性
- 标签是模型要学习和预测的目标
- 特征影响标签,但不等同于标签
第 2 题:
- 不同问题类型使用不同模型
- 评估方法不同
- 错误判断会导致模型无法使用
三、实践题答案
- 分类问题
- 回归问题