人工智能基础与应用 - 数据处理、建模与预测流程 2 : 数据与问题类型

2.1 学习目标

通过本章学习,读者应能够:

  • 理解人工智能训练中"数据"的实际含义
  • 正确认识样本、特征与标签
  • 能从日常业务场景中抽象出数据结构
  • 判断一个问题属于回归还是分类
  • 使用 Python 对数据进行基本查看与拆分

本章重点在于:
把"现实问题"转化为"人工智能可以处理的问题"。


2.2 从业务角度理解什么是"数据"

在实际工作中,数据并不是抽象存在的。

它通常来源于:

  • 系统日志
  • 业务记录
  • 用户行为
  • 问卷或表单

例如,在一个简单的健身应用中,系统可能每天记录:

  • 用户年龄
  • 每日步数
  • 运动时长
  • 是否达标

这些记录汇总在一起,就形成了人工智能训练所需的数据

对人工智能而言,数据就是对现实世界的"数字化描述"。


2.3 样本、特征与标签(结合真实场景)

2.3.1 样本:一次记录,一个对象

在人工智能训练中,样本通常表示一次完整记录。

以健身数据为例:

  • 一个用户一天的运动记录
  • 一个客户一次交易记录
  • 一名学生一次考试结果

在表格中:

每一行通常就是一个样本。


2.3.2 特征:用来描述样本的信息

特征是对样本的描述性信息。

在健身场景中,可能包括:

  • 年龄
  • 性别
  • 运动时长
  • 心率

这些信息本身不是结果,但会影响结果


2.3.3 标签:模型要学习和预测的目标

标签是模型要学习和预测的对象。

例如:

  • 每日步数
  • 是否达成运动目标
  • 是否存在健康风险

在训练阶段,标签是已知的;

在预测阶段,标签是未知的。


2.3.4 一个通俗总结

可以用一句话记住三者关系:

特征是原因,标签是结果,样本是一次完整记录。


2.4 用一个业务示例理解数据结构

示例场景:健身用户每日数据(简化)

python 复制代码
import pandas as pd

data = {
    'age': [25, 30, 45, 35, 50],
    'exercise_minutes': [30, 20, 10, 40, 15],
    'calories_burned': [300, 200, 120, 380, 150],
    'daily_steps': [8000, 6000, 3000, 10000, 4000]
}

df = pd.DataFrame(data)
print(df)

输出示意:

复制代码
   age  exercise_minutes  calories_burned  daily_steps
0   25                30               300          8000
1   30                20               200          6000
2   45                10               120          3000
3   35                40               380         10000
4   50                15               150          4000

2.4.1 识别样本、特征与标签

在这个示例中:

  • 样本:每一行(一天的数据)

  • 特征:

    • age
    • exercise_minutes
    • calories_burned
  • 标签:

    • daily_steps

这是一个预测数值的任务


2.4.2 用 Python 分离特征与标签

python 复制代码
X = df[['age', 'exercise_minutes', 'calories_burned']]
y = df['daily_steps']

print(X)
print(y)

这一步是所有建模工作的起点


2.5 人工智能中的常见问题类型

在理解数据后,下一步必须回答一个问题:

模型要预测的"结果",到底是什么类型?


2.5.1 回归问题:预测"多少"

回归问题的特点是:

  • 预测结果是连续数值

常见业务示例:

  • 预测每日步数
  • 预测销售额
  • 预测能耗或费用

本章中的健身示例,就是一个典型的回归问题。


2.5.2 分类问题:预测"属于哪一类"

分类问题的特点是:

  • 预测结果是类别

例如:

  • 是否达成运动目标(是 / 否)
  • 用户是否存在风险
  • 是否需要人工干预

如果我们将问题改为:

"该用户今天是否达成 8000 步目标?"

那么问题类型就变成了分类问题


2.5.3 为什么问题类型不能选错

如果问题类型判断错误:

  • 模型选择会出错
  • 评估指标会无意义
  • 结果无法用于实际决策

这是人工智能训练师在实际工作中必须首先判断的一步


2.6 从现实问题到 AI 问题的判断方法

可以用以下思路快速判断:

  • 预测一个具体数值 → 回归问题
  • 判断是否 / 属于哪类 → 分类问题

这个判断方法简单,但非常实用。


2.7 本章小结

通过本章学习,应重点掌握:

  • 数据是人工智能学习的基础
  • 样本、特征、标签构成训练数据的核心结构
  • 表格数据是最常见的训练形式
  • 回归与分类是最基础、最常见的问题类型

这些内容将直接影响后续的数据处理和模型训练方式。


2.8 课后练习

一、判断题

  1. 在表格数据中,一行通常对应一个样本。
  2. 标签是用来描述样本特征的属性。
  3. 预测每日步数属于回归问题。

二、简答题

  1. 请结合一个业务场景,说明什么是特征,什么是标签。
  2. 为什么在建模前必须先判断问题类型?

三、实践题

请判断下列问题属于哪一类:

  1. 判断一名用户是否存在运动不足风险
  2. 预测下周某商品的销售数量

2.9 练习题参考答案

一、判断题答案

  1. 正确
  2. 错误
  3. 正确

二、简答题参考要点

第 1 题:

  • 特征是用于描述对象的属性
  • 标签是模型要学习和预测的目标
  • 特征影响标签,但不等同于标签

第 2 题:

  • 不同问题类型使用不同模型
  • 评估方法不同
  • 错误判断会导致模型无法使用

三、实践题答案

  1. 分类问题
  2. 回归问题

相关推荐
weixin199701080162 小时前
哔哩哔哩 item_search_video - 根据关键词获取视频列表接口对接全攻略:从入门到精通
人工智能·音视频
这张生成的图像能检测吗2 小时前
(论文速读)VJTNN+GAN分子优化的图到图翻译
人工智能·图神经网络·生成模型·分子设计·药物发现
AI营销实验室2 小时前
2025年AI CRM系统前瞻:原圈科技智能线索分配机制解析
大数据·人工智能
week_泽2 小时前
7、OpenCV ORB特征检测笔记
人工智能·笔记·opencv
jay神2 小时前
基于YOLOv8的行人车辆检测系统
人工智能·深度学习·yolo·计算机视觉·毕业设计
moshuying2 小时前
RAG技术演进:从外部知识库到智能体核心记忆系统
python
橙汁味的风2 小时前
3机器学习3步走框架
人工智能·机器学习
全栈小53 小时前
【2025年度创作】分享和总结如何通过AI快速开发一款MCP(模型上下文协议)服务插件,并进行本地和线上部署测试,最后上架MCP以及智能体调用MCP插件
人工智能·mcp·博客之星2025
囊中之锥.3 小时前
《深度学习》CUDA安装配置、pytorch库、torchvision库、torchaudio库安装
人工智能·pytorch·深度学习