【动手学深度学习】1.3. 各种机器学习问题


目录


1.3. 各种机器学习问题

1)监督学习(supervisedlearning)

监督学习(supervised learning):

  • 擅长在"给定输入特征"的情况下预测标签。

  • 每个"特征-标签"对都称为一个样本(example)。

  • 我们的目标是生成一个模型,能够将任何输入特征映射到标签(即预测)。

监督学习过程

  • 获取训练数据集:数据样本+标签。有时样本已有标签;有时样本需要被人工标记;

  • 生成模型:有监督学习算法+训练数据集="已完成学习的模型";

  • 预测标签:将没有见过的样本特征放到"已完成学习的模型"中,使用模型的输出作为相应标签的预测。

图1.3.1 监督学习:

(1)回归(regression)

回归(regression)是监督学习任务之一。

"回归"指的是通过建立输入变量(自变量)与输出结果(因变量)之间的数学关系模型,来预测一个具体的数值结果。简单来说,它就像用一条线或曲线来"拟合"数据点,从而根据已知因素推测未知数值。

(2)分类(classification)

分类 (classification)问题:希望模型能够预测样本属于哪个类别(category,正式称为(class))。

  • 二项分类(binomial classification):只有两个种类;

  • 多项分类(multiclass classification):有多个种类;

  • 层次分类(hierarchical classification):层次结构假定在许多类之间存在某种关系。

(3)标记问题

学习预测不相互排斥的类别的问题称为多标签分类(multi-label classification)。

举个例子,一篇典型的文章可能会用5~10个标签。

(4)搜索

在信息检索领域,我们希望对一组项目进行排序。搜索结果的排序也十分重要,学习算法需要输出有序的元素子集。

该问题一种解决方案:先为集合每个元素分配相应的相关性分数,然后检索评级最高的元素。

(5)推荐系统(recommender system)

推荐系统(recommender system),它的目标是向特定用户进行"个性化"推荐。

(6)序列学习

序列学习 是处理输入或输出是可变长度序列的机器学习方法,要求模型能"记住"历史信息来处理前后关联的任务。与传统模型(固定输入输出,如图像分类)不同。

序列学习几种典型的特殊情况:

  • 标记和解析 :是对文本序列进行注释,输入和输出数量基本相同,例如标注出句子中的命名实体等。

  • 自动语音识别 :输入是音频录音,输出是对应的文本记录,音频帧数远多于文本字符数,属于输出比输入短得多的序列到序列学习。

  • 文本到语音 :与自动语音识别相反,输入是文本,输出是音频文件,输出比输入长很多。

  • 机器翻译 :输入和输出的顺序及数量通常都不相同,像德语和英语间的翻译,存在词序调整等情况。

此外,序列学习还在确定用户阅读网页顺序、对话问题等众多其他学习任务中有应用,是当前热门的研究领域。

.

2)无监督学习

无监督学习(unsupervised learning):处理无标签数据,旨在自主发现数据内在模式或结构,无需明确的"目标"指导。

数据中不含有"目标"的机器学习问题通常被为无监督学习(unsupervised learning);

无监督学习可以回答什么样的问题呢?

  • 聚类(clustering)问题:没有标签的情况下,我们是否能给数据分类呢?比如,给定一组用户的网页浏览记录,我们能否将具有相似行为的用户聚类呢?

  • 主成分分析(principal component analysis)问题:我们能否找到少量的参数来准确地捕捉数据的线性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。

  • 因果关系 (causality)和概率图模型(probabilistic graphical models)问题:我们能否描述观察到的许多数据的根本原因?例如,如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据,我们能否简单地根据经验数据发现它们之间的关系?

  • 生成对抗性网络 (generative adversarial networks):目标是,合成与真实数据分布一致的复杂数据(如图像、音频)。**机制,**通过生成器与判别器的对抗训练,使生成数据难以被区分真伪。

.

3)与环境互动

传统的监督学习和无监督学习通常属于离线学习(offline learning),即先收集大量数据,然后在与环境断开的情况下进行学习。

离线学习的优点是可以在孤立的环境中进行模式识别,但其应用范围有限。

与环境互动的学习模式推动机器学习从静态预测迈向动态决策,解决更复杂的现实问题,但需应对环境反馈、动态变化及策略影响等挑战。

图1.3.6 从环境中为监督学习收集数据。

.

4)强化学习

强化学习(Reinforcement Learning, RL)关注智能体(agent)通过与环境的动态交互学习最优决策策略,核心特点如下:

Agent交互循环:智能体在时间序列中持续与环境互动,循环流程为:

  • 观察(Observation):接收环境状态信息(如游戏画面)。

  • 行动(Action):根据策略选择动作(如移动角色)。

  • 奖励(Reward):环境反馈即时收益(如得分增减)。

图1.3.7 强化学习和环境之间的相互作用

强化学习的目标是产生一个好的策略(policy)。 强化学习智能体选择的"动作"受策略控制,即一个从环境观察映射到行动的功能。

当环境可被完全观察到时,强化学习问题被称为马尔可夫决策过程 (markov decision process)。 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机 (contextual bandit problem)。 当没有状态,只有一组最初未知回报的可用动作时,这个问题就是经典的多臂赌博机(multi-armed bandit problem)。

.


声明:资源可能存在第三方来源,若有侵权请联系删除!

相关推荐
Mr数据杨5 小时前
灾害推文识别与应急信息筛选优化
机器学习·数据分析·kaggle
weisian1515 小时前
基础篇--概念原理-1-Token是什么?——从原理到实战,一篇讲透
人工智能·职场和发展·token
大模型最新论文速读5 小时前
Select to Think:蒸馏 token 排序能力,效果平均提升24%
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Studying 开龙wu5 小时前
深度学习PyTorch 实战九:YOLOv1目标检测从标注-训练-预测
pytorch·深度学习·yolo
老了,不知天命5 小时前
鳶尾花項目JAVA
java·开发语言·机器学习
无忧智库5 小时前
跨行业数据要素可信流通体系建设:打破信任壁垒的完整工程方法论(WORD)
大数据·人工智能
mit6.8245 小时前
NitroGen: AI 自动玩游戏
人工智能
小王毕业啦6 小时前
2007-2024年 省级-农林牧渔总产值、农业总产值数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
数据皮皮侠6 小时前
上市公司创新韧性数据(2000-2024)|顶刊同款 EIR 指数
大数据·人工智能·算法·智慧城市·制造
科研前沿6 小时前
纯视觉无感解算 + 动态数字孪生:室内外无感定位技术全新升级
大数据·人工智能·算法·重构·空间计算