人工智能基础与应用 - 数据处理、建模与预测流程 2 : 数据与问题类型

2.1 学习目标

通过本章学习,读者应能够:

  • 理解人工智能训练中"数据"的实际含义
  • 正确认识样本、特征与标签
  • 能从日常业务场景中抽象出数据结构
  • 判断一个问题属于回归还是分类
  • 使用 Python 对数据进行基本查看与拆分

本章重点在于:
把"现实问题"转化为"人工智能可以处理的问题"。


2.2 从业务角度理解什么是"数据"

在实际工作中,数据并不是抽象存在的。

它通常来源于:

  • 系统日志
  • 业务记录
  • 用户行为
  • 问卷或表单

例如,在一个简单的健身应用中,系统可能每天记录:

  • 用户年龄
  • 每日步数
  • 运动时长
  • 是否达标

这些记录汇总在一起,就形成了人工智能训练所需的数据

对人工智能而言,数据就是对现实世界的"数字化描述"。


2.3 样本、特征与标签(结合真实场景)

2.3.1 样本:一次记录,一个对象

在人工智能训练中,样本通常表示一次完整记录。

以健身数据为例:

  • 一个用户一天的运动记录
  • 一个客户一次交易记录
  • 一名学生一次考试结果

在表格中:

每一行通常就是一个样本。


2.3.2 特征:用来描述样本的信息

特征是对样本的描述性信息。

在健身场景中,可能包括:

  • 年龄
  • 性别
  • 运动时长
  • 心率

这些信息本身不是结果,但会影响结果


2.3.3 标签:模型要学习和预测的目标

标签是模型要学习和预测的对象。

例如:

  • 每日步数
  • 是否达成运动目标
  • 是否存在健康风险

在训练阶段,标签是已知的;

在预测阶段,标签是未知的。


2.3.4 一个通俗总结

可以用一句话记住三者关系:

特征是原因,标签是结果,样本是一次完整记录。


2.4 用一个业务示例理解数据结构

示例场景:健身用户每日数据(简化)

python 复制代码
import pandas as pd

data = {
    'age': [25, 30, 45, 35, 50],
    'exercise_minutes': [30, 20, 10, 40, 15],
    'calories_burned': [300, 200, 120, 380, 150],
    'daily_steps': [8000, 6000, 3000, 10000, 4000]
}

df = pd.DataFrame(data)
print(df)

输出示意:

复制代码
   age  exercise_minutes  calories_burned  daily_steps
0   25                30               300          8000
1   30                20               200          6000
2   45                10               120          3000
3   35                40               380         10000
4   50                15               150          4000

2.4.1 识别样本、特征与标签

在这个示例中:

  • 样本:每一行(一天的数据)

  • 特征:

    • age
    • exercise_minutes
    • calories_burned
  • 标签:

    • daily_steps

这是一个预测数值的任务


2.4.2 用 Python 分离特征与标签

python 复制代码
X = df[['age', 'exercise_minutes', 'calories_burned']]
y = df['daily_steps']

print(X)
print(y)

这一步是所有建模工作的起点


2.5 人工智能中的常见问题类型

在理解数据后,下一步必须回答一个问题:

模型要预测的"结果",到底是什么类型?


2.5.1 回归问题:预测"多少"

回归问题的特点是:

  • 预测结果是连续数值

常见业务示例:

  • 预测每日步数
  • 预测销售额
  • 预测能耗或费用

本章中的健身示例,就是一个典型的回归问题。


2.5.2 分类问题:预测"属于哪一类"

分类问题的特点是:

  • 预测结果是类别

例如:

  • 是否达成运动目标(是 / 否)
  • 用户是否存在风险
  • 是否需要人工干预

如果我们将问题改为:

"该用户今天是否达成 8000 步目标?"

那么问题类型就变成了分类问题


2.5.3 为什么问题类型不能选错

如果问题类型判断错误:

  • 模型选择会出错
  • 评估指标会无意义
  • 结果无法用于实际决策

这是人工智能训练师在实际工作中必须首先判断的一步


2.6 从现实问题到 AI 问题的判断方法

可以用以下思路快速判断:

  • 预测一个具体数值 → 回归问题
  • 判断是否 / 属于哪类 → 分类问题

这个判断方法简单,但非常实用。


2.7 本章小结

通过本章学习,应重点掌握:

  • 数据是人工智能学习的基础
  • 样本、特征、标签构成训练数据的核心结构
  • 表格数据是最常见的训练形式
  • 回归与分类是最基础、最常见的问题类型

这些内容将直接影响后续的数据处理和模型训练方式。


2.8 课后练习

一、判断题

  1. 在表格数据中,一行通常对应一个样本。
  2. 标签是用来描述样本特征的属性。
  3. 预测每日步数属于回归问题。

二、简答题

  1. 请结合一个业务场景,说明什么是特征,什么是标签。
  2. 为什么在建模前必须先判断问题类型?

三、实践题

请判断下列问题属于哪一类:

  1. 判断一名用户是否存在运动不足风险
  2. 预测下周某商品的销售数量

2.9 练习题参考答案

一、判断题答案

  1. 正确
  2. 错误
  3. 正确

二、简答题参考要点

第 1 题:

  • 特征是用于描述对象的属性
  • 标签是模型要学习和预测的目标
  • 特征影响标签,但不等同于标签

第 2 题:

  • 不同问题类型使用不同模型
  • 评估方法不同
  • 错误判断会导致模型无法使用

三、实践题答案

  1. 分类问题
  2. 回归问题

相关推荐
Warren2Lynch9 小时前
利用 AI 协作优化软件更新逻辑:构建清晰的 UML 顺序图指南
人工智能·uml
ModelWhale9 小时前
当“AI+制造”遇上商业航天:和鲸助力头部企业,构建火箭研发 AI 中台
人工智能
ATMQuant9 小时前
量化指标解码13:WaveTrend波浪趋势 - 震荡行情的超买超卖捕手
人工智能·ai·金融·区块链·量化交易·vnpy
weixin_509138349 小时前
语义流形探索:大型语言模型中可控涌现路径的实证证据
人工智能·语义空间
多米Domi01110 小时前
0x3f第33天复习 (16;45-18:00)
数据结构·python·算法·leetcode·链表
soldierluo10 小时前
大模型的召回率
人工智能·机器学习
Gofarlic_oms110 小时前
Windchill用户登录与模块访问失败问题排查与许可证诊断
大数据·运维·网络·数据库·人工智能
童话名剑10 小时前
人脸识别(吴恩达深度学习笔记)
人工智能·深度学习·人脸识别·siamese网络·三元组损失函数
_YiFei10 小时前
2026年AIGC检测通关攻略:降ai率工具深度测评(含免费降ai率方案)
人工智能·aigc
freepopo10 小时前
天津商业空间设计:材质肌理里的温度与质感[特殊字符]
python·材质