【动手学深度学习】1.3. 各种机器学习问题


目录


1.3. 各种机器学习问题

1)监督学习(supervisedlearning)

监督学习(supervised learning):

  • 擅长在"给定输入特征"的情况下预测标签。

  • 每个"特征-标签"对都称为一个样本(example)。

  • 我们的目标是生成一个模型,能够将任何输入特征映射到标签(即预测)。

监督学习过程

  • 获取训练数据集:数据样本+标签。有时样本已有标签;有时样本需要被人工标记;

  • 生成模型:有监督学习算法+训练数据集="已完成学习的模型";

  • 预测标签:将没有见过的样本特征放到"已完成学习的模型"中,使用模型的输出作为相应标签的预测。

图1.3.1 监督学习:

(1)回归(regression)

回归(regression)是监督学习任务之一。

"回归"指的是通过建立输入变量(自变量)与输出结果(因变量)之间的数学关系模型,来预测一个具体的数值结果。简单来说,它就像用一条线或曲线来"拟合"数据点,从而根据已知因素推测未知数值。

(2)分类(classification)

分类 (classification)问题:希望模型能够预测样本属于哪个类别(category,正式称为(class))。

  • 二项分类(binomial classification):只有两个种类;

  • 多项分类(multiclass classification):有多个种类;

  • 层次分类(hierarchical classification):层次结构假定在许多类之间存在某种关系。

(3)标记问题

学习预测不相互排斥的类别的问题称为多标签分类(multi-label classification)。

举个例子,一篇典型的文章可能会用5~10个标签。

(4)搜索

在信息检索领域,我们希望对一组项目进行排序。搜索结果的排序也十分重要,学习算法需要输出有序的元素子集。

该问题一种解决方案:先为集合每个元素分配相应的相关性分数,然后检索评级最高的元素。

(5)推荐系统(recommender system)

推荐系统(recommender system),它的目标是向特定用户进行"个性化"推荐。

(6)序列学习

序列学习 是处理输入或输出是可变长度序列的机器学习方法,要求模型能"记住"历史信息来处理前后关联的任务。与传统模型(固定输入输出,如图像分类)不同。

序列学习几种典型的特殊情况:

  • 标记和解析 :是对文本序列进行注释,输入和输出数量基本相同,例如标注出句子中的命名实体等。

  • 自动语音识别 :输入是音频录音,输出是对应的文本记录,音频帧数远多于文本字符数,属于输出比输入短得多的序列到序列学习。

  • 文本到语音 :与自动语音识别相反,输入是文本,输出是音频文件,输出比输入长很多。

  • 机器翻译 :输入和输出的顺序及数量通常都不相同,像德语和英语间的翻译,存在词序调整等情况。

此外,序列学习还在确定用户阅读网页顺序、对话问题等众多其他学习任务中有应用,是当前热门的研究领域。

.

2)无监督学习

无监督学习(unsupervised learning):处理无标签数据,旨在自主发现数据内在模式或结构,无需明确的"目标"指导。

数据中不含有"目标"的机器学习问题通常被为无监督学习(unsupervised learning);

无监督学习可以回答什么样的问题呢?

  • 聚类(clustering)问题:没有标签的情况下,我们是否能给数据分类呢?比如,给定一组用户的网页浏览记录,我们能否将具有相似行为的用户聚类呢?

  • 主成分分析(principal component analysis)问题:我们能否找到少量的参数来准确地捕捉数据的线性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。

  • 因果关系 (causality)和概率图模型(probabilistic graphical models)问题:我们能否描述观察到的许多数据的根本原因?例如,如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据,我们能否简单地根据经验数据发现它们之间的关系?

  • 生成对抗性网络 (generative adversarial networks):目标是,合成与真实数据分布一致的复杂数据(如图像、音频)。**机制,**通过生成器与判别器的对抗训练,使生成数据难以被区分真伪。

.

3)与环境互动

传统的监督学习和无监督学习通常属于离线学习(offline learning),即先收集大量数据,然后在与环境断开的情况下进行学习。

离线学习的优点是可以在孤立的环境中进行模式识别,但其应用范围有限。

与环境互动的学习模式推动机器学习从静态预测迈向动态决策,解决更复杂的现实问题,但需应对环境反馈、动态变化及策略影响等挑战。

图1.3.6 从环境中为监督学习收集数据。

.

4)强化学习

强化学习(Reinforcement Learning, RL)关注智能体(agent)通过与环境的动态交互学习最优决策策略,核心特点如下:

Agent交互循环:智能体在时间序列中持续与环境互动,循环流程为:

  • 观察(Observation):接收环境状态信息(如游戏画面)。

  • 行动(Action):根据策略选择动作(如移动角色)。

  • 奖励(Reward):环境反馈即时收益(如得分增减)。

图1.3.7 强化学习和环境之间的相互作用

强化学习的目标是产生一个好的策略(policy)。 强化学习智能体选择的"动作"受策略控制,即一个从环境观察映射到行动的功能。

当环境可被完全观察到时,强化学习问题被称为马尔可夫决策过程 (markov decision process)。 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机 (contextual bandit problem)。 当没有状态,只有一组最初未知回报的可用动作时,这个问题就是经典的多臂赌博机(multi-armed bandit problem)。

.


声明:资源可能存在第三方来源,若有侵权请联系删除!

相关推荐
空中湖20 分钟前
tensorflow武林志第二卷第九章:玄功九转
人工智能·python·tensorflow
lishaoan7726 分钟前
使用tensorflow的线性回归的例子(七)
人工智能·tensorflow·线性回归
千宇宙航3 小时前
闲庭信步使用SV搭建图像测试平台:第三十一课——基于神经网络的手写数字识别
图像处理·人工智能·深度学习·神经网络·计算机视觉·fpga开发
IT古董3 小时前
【第二章:机器学习与神经网络概述】04.回归算法理论与实践 -(4)模型评价与调整(Model Evaluation & Tuning)
神经网络·机器学习·回归
onceco4 小时前
领域LLM九讲——第5讲 为什么选择OpenManus而不是QwenAgent(附LLM免费api邀请码)
人工智能·python·深度学习·语言模型·自然语言处理·自动化
天水幼麟4 小时前
动手学深度学习-学习笔记(总)
笔记·深度学习·学习
jndingxin7 小时前
OpenCV CUDA模块设备层-----高效地计算两个 uint 类型值的带权重平均值
人工智能·opencv·计算机视觉
天水幼麟7 小时前
动手学深度学习-学习笔记【二】(基础知识)
笔记·深度学习·学习
Sweet锦7 小时前
零基础保姆级本地化部署文心大模型4.5开源系列
人工智能·语言模型·文心一言
hie988948 小时前
MATLAB锂离子电池伪二维(P2D)模型实现
人工智能·算法·matlab