【动手学深度学习】1.3. 各种机器学习问题


目录


1.3. 各种机器学习问题

1)监督学习(supervisedlearning)

监督学习(supervised learning):

  • 擅长在"给定输入特征"的情况下预测标签。

  • 每个"特征-标签"对都称为一个样本(example)。

  • 我们的目标是生成一个模型,能够将任何输入特征映射到标签(即预测)。

监督学习过程

  • 获取训练数据集:数据样本+标签。有时样本已有标签;有时样本需要被人工标记;

  • 生成模型:有监督学习算法+训练数据集="已完成学习的模型";

  • 预测标签:将没有见过的样本特征放到"已完成学习的模型"中,使用模型的输出作为相应标签的预测。

图1.3.1 监督学习:

(1)回归(regression)

回归(regression)是监督学习任务之一。

"回归"指的是通过建立输入变量(自变量)与输出结果(因变量)之间的数学关系模型,来预测一个具体的数值结果。简单来说,它就像用一条线或曲线来"拟合"数据点,从而根据已知因素推测未知数值。

(2)分类(classification)

分类 (classification)问题:希望模型能够预测样本属于哪个类别(category,正式称为(class))。

  • 二项分类(binomial classification):只有两个种类;

  • 多项分类(multiclass classification):有多个种类;

  • 层次分类(hierarchical classification):层次结构假定在许多类之间存在某种关系。

(3)标记问题

学习预测不相互排斥的类别的问题称为多标签分类(multi-label classification)。

举个例子,一篇典型的文章可能会用5~10个标签。

(4)搜索

在信息检索领域,我们希望对一组项目进行排序。搜索结果的排序也十分重要,学习算法需要输出有序的元素子集。

该问题一种解决方案:先为集合每个元素分配相应的相关性分数,然后检索评级最高的元素。

(5)推荐系统(recommender system)

推荐系统(recommender system),它的目标是向特定用户进行"个性化"推荐。

(6)序列学习

序列学习 是处理输入或输出是可变长度序列的机器学习方法,要求模型能"记住"历史信息来处理前后关联的任务。与传统模型(固定输入输出,如图像分类)不同。

序列学习几种典型的特殊情况:

  • 标记和解析 :是对文本序列进行注释,输入和输出数量基本相同,例如标注出句子中的命名实体等。

  • 自动语音识别 :输入是音频录音,输出是对应的文本记录,音频帧数远多于文本字符数,属于输出比输入短得多的序列到序列学习。

  • 文本到语音 :与自动语音识别相反,输入是文本,输出是音频文件,输出比输入长很多。

  • 机器翻译 :输入和输出的顺序及数量通常都不相同,像德语和英语间的翻译,存在词序调整等情况。

此外,序列学习还在确定用户阅读网页顺序、对话问题等众多其他学习任务中有应用,是当前热门的研究领域。

.

2)无监督学习

无监督学习(unsupervised learning):处理无标签数据,旨在自主发现数据内在模式或结构,无需明确的"目标"指导。

数据中不含有"目标"的机器学习问题通常被为无监督学习(unsupervised learning);

无监督学习可以回答什么样的问题呢?

  • 聚类(clustering)问题:没有标签的情况下,我们是否能给数据分类呢?比如,给定一组用户的网页浏览记录,我们能否将具有相似行为的用户聚类呢?

  • 主成分分析(principal component analysis)问题:我们能否找到少量的参数来准确地捕捉数据的线性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。

  • 因果关系 (causality)和概率图模型(probabilistic graphical models)问题:我们能否描述观察到的许多数据的根本原因?例如,如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据,我们能否简单地根据经验数据发现它们之间的关系?

  • 生成对抗性网络 (generative adversarial networks):目标是,合成与真实数据分布一致的复杂数据(如图像、音频)。**机制,**通过生成器与判别器的对抗训练,使生成数据难以被区分真伪。

.

3)与环境互动

传统的监督学习和无监督学习通常属于离线学习(offline learning),即先收集大量数据,然后在与环境断开的情况下进行学习。

离线学习的优点是可以在孤立的环境中进行模式识别,但其应用范围有限。

与环境互动的学习模式推动机器学习从静态预测迈向动态决策,解决更复杂的现实问题,但需应对环境反馈、动态变化及策略影响等挑战。

图1.3.6 从环境中为监督学习收集数据。

.

4)强化学习

强化学习(Reinforcement Learning, RL)关注智能体(agent)通过与环境的动态交互学习最优决策策略,核心特点如下:

Agent交互循环:智能体在时间序列中持续与环境互动,循环流程为:

  • 观察(Observation):接收环境状态信息(如游戏画面)。

  • 行动(Action):根据策略选择动作(如移动角色)。

  • 奖励(Reward):环境反馈即时收益(如得分增减)。

图1.3.7 强化学习和环境之间的相互作用

强化学习的目标是产生一个好的策略(policy)。 强化学习智能体选择的"动作"受策略控制,即一个从环境观察映射到行动的功能。

当环境可被完全观察到时,强化学习问题被称为马尔可夫决策过程 (markov decision process)。 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机 (contextual bandit problem)。 当没有状态,只有一组最初未知回报的可用动作时,这个问题就是经典的多臂赌博机(multi-armed bandit problem)。

.


声明:资源可能存在第三方来源,若有侵权请联系删除!

相关推荐
TiAmo zhang11 分钟前
深度学习与图像处理 | 基于PaddlePaddle的梯度下降算法实现(线性回归投资预测)
图像处理·深度学习·算法
空中湖16 分钟前
PyTorch武侠演义 第一卷:初入江湖 第7章:矿洞中的计算禁制
人工智能·pytorch·python
新智元19 分钟前
毕树超入职Meta后首发声:十年前怀疑AGI,如今深信AGI已至!
人工智能·openai
新智元20 分钟前
GPT-5「全家桶」爆出本周上线!惊艳首测秒出网页,编程彻底起飞
人工智能·openai
笔触狂放31 分钟前
【机器学习】第八章 模型评估及改进
人工智能·深度学习·机器学习
AI训练师31 分钟前
基于深度学习的YOLO框架的7种交通场景识别项目系统【附完整源码+数据集】
人工智能
柠檬味拥抱33 分钟前
基于YOLOv8的狗狗品种(多达60种常见犬类)品种鉴别识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
人工智能
HelloGitHub1 小时前
开源新旗舰 GLM-4.5:不想刷榜,只想干活儿
人工智能·开源·github
虹科数字化与AR1 小时前
安宝特案例丨AR+AI赋能轨道交通制造:破解人工装配难题的创新实践
人工智能·ar·制造·轨道交通·工业ar·ai辅助·ar工业
陈敬雷-充电了么-CEO兼CTO1 小时前
字节跳动开源Coze,开启AI Agent开发新时代?
人工智能·gpt·chatgpt·开源·大模型·agi·coze