人工智能基础与应用 - 数据处理、建模与预测流程 2 : 数据与问题类型

2.1 学习目标

通过本章学习,读者应能够:

  • 理解人工智能训练中"数据"的实际含义
  • 正确认识样本、特征与标签
  • 能从日常业务场景中抽象出数据结构
  • 判断一个问题属于回归还是分类
  • 使用 Python 对数据进行基本查看与拆分

本章重点在于:
把"现实问题"转化为"人工智能可以处理的问题"。


2.2 从业务角度理解什么是"数据"

在实际工作中,数据并不是抽象存在的。

它通常来源于:

  • 系统日志
  • 业务记录
  • 用户行为
  • 问卷或表单

例如,在一个简单的健身应用中,系统可能每天记录:

  • 用户年龄
  • 每日步数
  • 运动时长
  • 是否达标

这些记录汇总在一起,就形成了人工智能训练所需的数据

对人工智能而言,数据就是对现实世界的"数字化描述"。


2.3 样本、特征与标签(结合真实场景)

2.3.1 样本:一次记录,一个对象

在人工智能训练中,样本通常表示一次完整记录。

以健身数据为例:

  • 一个用户一天的运动记录
  • 一个客户一次交易记录
  • 一名学生一次考试结果

在表格中:

每一行通常就是一个样本。


2.3.2 特征:用来描述样本的信息

特征是对样本的描述性信息。

在健身场景中,可能包括:

  • 年龄
  • 性别
  • 运动时长
  • 心率

这些信息本身不是结果,但会影响结果


2.3.3 标签:模型要学习和预测的目标

标签是模型要学习和预测的对象。

例如:

  • 每日步数
  • 是否达成运动目标
  • 是否存在健康风险

在训练阶段,标签是已知的;

在预测阶段,标签是未知的。


2.3.4 一个通俗总结

可以用一句话记住三者关系:

特征是原因,标签是结果,样本是一次完整记录。


2.4 用一个业务示例理解数据结构

示例场景:健身用户每日数据(简化)

python 复制代码
import pandas as pd

data = {
    'age': [25, 30, 45, 35, 50],
    'exercise_minutes': [30, 20, 10, 40, 15],
    'calories_burned': [300, 200, 120, 380, 150],
    'daily_steps': [8000, 6000, 3000, 10000, 4000]
}

df = pd.DataFrame(data)
print(df)

输出示意:

复制代码
   age  exercise_minutes  calories_burned  daily_steps
0   25                30               300          8000
1   30                20               200          6000
2   45                10               120          3000
3   35                40               380         10000
4   50                15               150          4000

2.4.1 识别样本、特征与标签

在这个示例中:

  • 样本:每一行(一天的数据)

  • 特征:

    • age
    • exercise_minutes
    • calories_burned
  • 标签:

    • daily_steps

这是一个预测数值的任务


2.4.2 用 Python 分离特征与标签

python 复制代码
X = df[['age', 'exercise_minutes', 'calories_burned']]
y = df['daily_steps']

print(X)
print(y)

这一步是所有建模工作的起点


2.5 人工智能中的常见问题类型

在理解数据后,下一步必须回答一个问题:

模型要预测的"结果",到底是什么类型?


2.5.1 回归问题:预测"多少"

回归问题的特点是:

  • 预测结果是连续数值

常见业务示例:

  • 预测每日步数
  • 预测销售额
  • 预测能耗或费用

本章中的健身示例,就是一个典型的回归问题。


2.5.2 分类问题:预测"属于哪一类"

分类问题的特点是:

  • 预测结果是类别

例如:

  • 是否达成运动目标(是 / 否)
  • 用户是否存在风险
  • 是否需要人工干预

如果我们将问题改为:

"该用户今天是否达成 8000 步目标?"

那么问题类型就变成了分类问题


2.5.3 为什么问题类型不能选错

如果问题类型判断错误:

  • 模型选择会出错
  • 评估指标会无意义
  • 结果无法用于实际决策

这是人工智能训练师在实际工作中必须首先判断的一步


2.6 从现实问题到 AI 问题的判断方法

可以用以下思路快速判断:

  • 预测一个具体数值 → 回归问题
  • 判断是否 / 属于哪类 → 分类问题

这个判断方法简单,但非常实用。


2.7 本章小结

通过本章学习,应重点掌握:

  • 数据是人工智能学习的基础
  • 样本、特征、标签构成训练数据的核心结构
  • 表格数据是最常见的训练形式
  • 回归与分类是最基础、最常见的问题类型

这些内容将直接影响后续的数据处理和模型训练方式。


2.8 课后练习

一、判断题

  1. 在表格数据中,一行通常对应一个样本。
  2. 标签是用来描述样本特征的属性。
  3. 预测每日步数属于回归问题。

二、简答题

  1. 请结合一个业务场景,说明什么是特征,什么是标签。
  2. 为什么在建模前必须先判断问题类型?

三、实践题

请判断下列问题属于哪一类:

  1. 判断一名用户是否存在运动不足风险
  2. 预测下周某商品的销售数量

2.9 练习题参考答案

一、判断题答案

  1. 正确
  2. 错误
  3. 正确

二、简答题参考要点

第 1 题:

  • 特征是用于描述对象的属性
  • 标签是模型要学习和预测的目标
  • 特征影响标签,但不等同于标签

第 2 题:

  • 不同问题类型使用不同模型
  • 评估方法不同
  • 错误判断会导致模型无法使用

三、实践题答案

  1. 分类问题
  2. 回归问题

相关推荐
科技小花6 小时前
全球化深水区,数据治理成为企业出海 “核心竞争力”
大数据·数据库·人工智能·数据治理·数据中台·全球化
X56617 小时前
如何在 Laravel 中正确保存嵌套动态表单数据(主服务与子服务)
jvm·数据库·python
zhuiyisuifeng7 小时前
2026前瞻:GPTimage2镜像官网或将颠覆视觉创作
人工智能·gpt
徐健峰7 小时前
GPT-image-2 热门玩法实战(一):AI 看手相 — 一张手掌照片生成专业手相分析图
人工智能·gpt
weixin_370976357 小时前
AI的终极赛跑:进入AGI,还是泡沫破灭?
大数据·人工智能·agi
Slow菜鸟7 小时前
AI学习篇(五) | awesome-design-md 使用说明
人工智能·学习
ZhengEnCi7 小时前
03ab-PyTorch安装教程 📚
python
冬奇Lab8 小时前
RAG 系列(五):Embedding 模型——语义理解的核心
人工智能·llm·aigc
深小乐8 小时前
AI 周刊【2026.04.27-05.03】:Anthropic 9000亿美元估值、英伟达死磕智能体、中央重磅定调AI
人工智能
码点滴8 小时前
什么时候用 DeepSeek V4,而不是 GPT-5/Claude/Gemini?
人工智能·gpt·架构·大模型·deepseek