人工智能基础与应用 - 数据处理、建模与预测流程 2 : 数据与问题类型

2.1 学习目标

通过本章学习，读者应能够：

理解人工智能训练中"数据"的实际含义
正确认识样本、特征与标签
能从日常业务场景中抽象出数据结构
判断一个问题属于回归还是分类
使用 Python 对数据进行基本查看与拆分

本章重点在于：
把"现实问题"转化为"人工智能可以处理的问题"。

2.2 从业务角度理解什么是"数据"

在实际工作中，数据并不是抽象存在的。

它通常来源于：

系统日志
业务记录
用户行为
问卷或表单

例如，在一个简单的健身应用中，系统可能每天记录：

用户年龄
每日步数
运动时长
是否达标

这些记录汇总在一起，就形成了人工智能训练所需的数据。

对人工智能而言，数据就是对现实世界的"数字化描述"。

2.3 样本、特征与标签（结合真实场景）

2.3.1 样本：一次记录，一个对象

在人工智能训练中，样本通常表示一次完整记录。

以健身数据为例：

一个用户一天的运动记录
一个客户一次交易记录
一名学生一次考试结果

在表格中：

每一行通常就是一个样本。

2.3.2 特征：用来描述样本的信息

特征是对样本的描述性信息。

在健身场景中，可能包括：

年龄
性别
运动时长
心率

这些信息本身不是结果，但会影响结果。

2.3.3 标签：模型要学习和预测的目标

标签是模型要学习和预测的对象。

例如：

每日步数
是否达成运动目标
是否存在健康风险

在训练阶段，标签是已知的；

在预测阶段，标签是未知的。

2.3.4 一个通俗总结

可以用一句话记住三者关系：

特征是原因，标签是结果，样本是一次完整记录。

2.4 用一个业务示例理解数据结构

示例场景：健身用户每日数据（简化）

python 复制代码

import pandas as pd

data = {
    'age': [25, 30, 45, 35, 50],
    'exercise_minutes': [30, 20, 10, 40, 15],
    'calories_burned': [300, 200, 120, 380, 150],
    'daily_steps': [8000, 6000, 3000, 10000, 4000]
}

df = pd.DataFrame(data)
print(df)

输出示意：

复制代码

   age  exercise_minutes  calories_burned  daily_steps
0   25                30               300          8000
1   30                20               200          6000
2   45                10               120          3000
3   35                40               380         10000
4   50                15               150          4000

2.4.1 识别样本、特征与标签

在这个示例中：

样本：每一行（一天的数据）
特征：
- age
- exercise_minutes
- calories_burned
标签：
- daily_steps

这是一个预测数值的任务。

2.4.2 用 Python 分离特征与标签

python 复制代码

X = df[['age', 'exercise_minutes', 'calories_burned']]
y = df['daily_steps']

print(X)
print(y)

这一步是所有建模工作的起点。

2.5 人工智能中的常见问题类型

在理解数据后，下一步必须回答一个问题：

模型要预测的"结果"，到底是什么类型？

2.5.1 回归问题：预测"多少"

回归问题的特点是：

预测结果是连续数值

常见业务示例：

预测每日步数
预测销售额
预测能耗或费用

本章中的健身示例，就是一个典型的回归问题。

2.5.2 分类问题：预测"属于哪一类"

分类问题的特点是：

预测结果是类别

例如：

是否达成运动目标（是 / 否）
用户是否存在风险
是否需要人工干预

如果我们将问题改为：

"该用户今天是否达成 8000 步目标？"

那么问题类型就变成了分类问题。

2.5.3 为什么问题类型不能选错

如果问题类型判断错误：

模型选择会出错
评估指标会无意义
结果无法用于实际决策

这是人工智能训练师在实际工作中必须首先判断的一步。

2.6 从现实问题到 AI 问题的判断方法

可以用以下思路快速判断：

预测一个具体数值 → 回归问题
判断是否 / 属于哪类 → 分类问题

这个判断方法简单，但非常实用。

2.7 本章小结

通过本章学习，应重点掌握：

数据是人工智能学习的基础
样本、特征、标签构成训练数据的核心结构
表格数据是最常见的训练形式
回归与分类是最基础、最常见的问题类型

这些内容将直接影响后续的数据处理和模型训练方式。

2.8 课后练习

一、判断题

在表格数据中，一行通常对应一个样本。
标签是用来描述样本特征的属性。
预测每日步数属于回归问题。

二、简答题

请结合一个业务场景，说明什么是特征，什么是标签。
为什么在建模前必须先判断问题类型？

三、实践题

请判断下列问题属于哪一类：

判断一名用户是否存在运动不足风险
预测下周某商品的销售数量

2.9 练习题参考答案

一、判断题答案

正确
错误
正确

二、简答题参考要点

第 1 题：

特征是用于描述对象的属性
标签是模型要学习和预测的目标
特征影响标签，但不等同于标签

第 2 题：

不同问题类型使用不同模型
评估方法不同
错误判断会导致模型无法使用

三、实践题答案

分类问题
回归问题