人工智能基础与应用 - 数据处理、建模与预测流程 2 : 数据与问题类型

2.1 学习目标

通过本章学习,读者应能够:

  • 理解人工智能训练中"数据"的实际含义
  • 正确认识样本、特征与标签
  • 能从日常业务场景中抽象出数据结构
  • 判断一个问题属于回归还是分类
  • 使用 Python 对数据进行基本查看与拆分

本章重点在于:
把"现实问题"转化为"人工智能可以处理的问题"。


2.2 从业务角度理解什么是"数据"

在实际工作中,数据并不是抽象存在的。

它通常来源于:

  • 系统日志
  • 业务记录
  • 用户行为
  • 问卷或表单

例如,在一个简单的健身应用中,系统可能每天记录:

  • 用户年龄
  • 每日步数
  • 运动时长
  • 是否达标

这些记录汇总在一起,就形成了人工智能训练所需的数据

对人工智能而言,数据就是对现实世界的"数字化描述"。


2.3 样本、特征与标签(结合真实场景)

2.3.1 样本:一次记录,一个对象

在人工智能训练中,样本通常表示一次完整记录。

以健身数据为例:

  • 一个用户一天的运动记录
  • 一个客户一次交易记录
  • 一名学生一次考试结果

在表格中:

每一行通常就是一个样本。


2.3.2 特征:用来描述样本的信息

特征是对样本的描述性信息。

在健身场景中,可能包括:

  • 年龄
  • 性别
  • 运动时长
  • 心率

这些信息本身不是结果,但会影响结果


2.3.3 标签:模型要学习和预测的目标

标签是模型要学习和预测的对象。

例如:

  • 每日步数
  • 是否达成运动目标
  • 是否存在健康风险

在训练阶段,标签是已知的;

在预测阶段,标签是未知的。


2.3.4 一个通俗总结

可以用一句话记住三者关系:

特征是原因,标签是结果,样本是一次完整记录。


2.4 用一个业务示例理解数据结构

示例场景:健身用户每日数据(简化)

python 复制代码
import pandas as pd

data = {
    'age': [25, 30, 45, 35, 50],
    'exercise_minutes': [30, 20, 10, 40, 15],
    'calories_burned': [300, 200, 120, 380, 150],
    'daily_steps': [8000, 6000, 3000, 10000, 4000]
}

df = pd.DataFrame(data)
print(df)

输出示意:

复制代码
   age  exercise_minutes  calories_burned  daily_steps
0   25                30               300          8000
1   30                20               200          6000
2   45                10               120          3000
3   35                40               380         10000
4   50                15               150          4000

2.4.1 识别样本、特征与标签

在这个示例中:

  • 样本:每一行(一天的数据)

  • 特征:

    • age
    • exercise_minutes
    • calories_burned
  • 标签:

    • daily_steps

这是一个预测数值的任务


2.4.2 用 Python 分离特征与标签

python 复制代码
X = df[['age', 'exercise_minutes', 'calories_burned']]
y = df['daily_steps']

print(X)
print(y)

这一步是所有建模工作的起点


2.5 人工智能中的常见问题类型

在理解数据后,下一步必须回答一个问题:

模型要预测的"结果",到底是什么类型?


2.5.1 回归问题:预测"多少"

回归问题的特点是:

  • 预测结果是连续数值

常见业务示例:

  • 预测每日步数
  • 预测销售额
  • 预测能耗或费用

本章中的健身示例,就是一个典型的回归问题。


2.5.2 分类问题:预测"属于哪一类"

分类问题的特点是:

  • 预测结果是类别

例如:

  • 是否达成运动目标(是 / 否)
  • 用户是否存在风险
  • 是否需要人工干预

如果我们将问题改为:

"该用户今天是否达成 8000 步目标?"

那么问题类型就变成了分类问题


2.5.3 为什么问题类型不能选错

如果问题类型判断错误:

  • 模型选择会出错
  • 评估指标会无意义
  • 结果无法用于实际决策

这是人工智能训练师在实际工作中必须首先判断的一步


2.6 从现实问题到 AI 问题的判断方法

可以用以下思路快速判断:

  • 预测一个具体数值 → 回归问题
  • 判断是否 / 属于哪类 → 分类问题

这个判断方法简单,但非常实用。


2.7 本章小结

通过本章学习,应重点掌握:

  • 数据是人工智能学习的基础
  • 样本、特征、标签构成训练数据的核心结构
  • 表格数据是最常见的训练形式
  • 回归与分类是最基础、最常见的问题类型

这些内容将直接影响后续的数据处理和模型训练方式。


2.8 课后练习

一、判断题

  1. 在表格数据中,一行通常对应一个样本。
  2. 标签是用来描述样本特征的属性。
  3. 预测每日步数属于回归问题。

二、简答题

  1. 请结合一个业务场景,说明什么是特征,什么是标签。
  2. 为什么在建模前必须先判断问题类型?

三、实践题

请判断下列问题属于哪一类:

  1. 判断一名用户是否存在运动不足风险
  2. 预测下周某商品的销售数量

2.9 练习题参考答案

一、判断题答案

  1. 正确
  2. 错误
  3. 正确

二、简答题参考要点

第 1 题:

  • 特征是用于描述对象的属性
  • 标签是模型要学习和预测的目标
  • 特征影响标签,但不等同于标签

第 2 题:

  • 不同问题类型使用不同模型
  • 评估方法不同
  • 错误判断会导致模型无法使用

三、实践题答案

  1. 分类问题
  2. 回归问题

相关推荐
大数据魔法师3 小时前
Streamlit(二十三)- 教程(二)- 动态导航
python·web
HackTorjan5 小时前
2026年5月29日:全球首个通用人工智能操作系统正式发布,开启人机协同新纪元
人工智能
刘大猫.5 小时前
智造短剧新引擎:火山引擎上线「火山剧创 1.0」,制作效率提升 80%
人工智能·ai·chatgpt·机器人·大模型·火山引擎·短剧新引擎
红尘散仙6 小时前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
雅菲奥朗6 小时前
企业级 AI 自动化|OpenClaw 龙虾实战与认证
运维·人工智能·自动化·openclaw
HIT_Weston6 小时前
99、【Agent】【OpenCode】task 工具提示词(Slash command)(一)
人工智能·agent·opencode
25 Hz6 小时前
Mind 爱好者时空表征刊 第24期 | 时间结构学习、空间对时间表征的补偿、事件内部的时间扭曲……
人工智能
心中有国也有家6 小时前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
海兰6 小时前
【文字三国志:第一篇】天命重构,大语言模型(LLM)动态生成文言风格的叙事文本的文字游戏
人工智能·游戏·语言模型
cxr8287 小时前
高分子复合材料 AI 逆向设计合——验证闭环、决策优化与中试放大
人工智能·材料逆向设计合成