【动手学深度学习】1.3. 各种机器学习问题


目录


1.3. 各种机器学习问题

1)监督学习(supervisedlearning)

监督学习(supervised learning):

  • 擅长在"给定输入特征"的情况下预测标签。

  • 每个"特征-标签"对都称为一个样本(example)。

  • 我们的目标是生成一个模型,能够将任何输入特征映射到标签(即预测)。

监督学习过程

  • 获取训练数据集:数据样本+标签。有时样本已有标签;有时样本需要被人工标记;

  • 生成模型:有监督学习算法+训练数据集="已完成学习的模型";

  • 预测标签:将没有见过的样本特征放到"已完成学习的模型"中,使用模型的输出作为相应标签的预测。

图1.3.1 监督学习:

(1)回归(regression)

回归(regression)是监督学习任务之一。

"回归"指的是通过建立输入变量(自变量)与输出结果(因变量)之间的数学关系模型,来预测一个具体的数值结果。简单来说,它就像用一条线或曲线来"拟合"数据点,从而根据已知因素推测未知数值。

(2)分类(classification)

分类 (classification)问题:希望模型能够预测样本属于哪个类别(category,正式称为(class))。

  • 二项分类(binomial classification):只有两个种类;

  • 多项分类(multiclass classification):有多个种类;

  • 层次分类(hierarchical classification):层次结构假定在许多类之间存在某种关系。

(3)标记问题

学习预测不相互排斥的类别的问题称为多标签分类(multi-label classification)。

举个例子,一篇典型的文章可能会用5~10个标签。

(4)搜索

在信息检索领域,我们希望对一组项目进行排序。搜索结果的排序也十分重要,学习算法需要输出有序的元素子集。

该问题一种解决方案:先为集合每个元素分配相应的相关性分数,然后检索评级最高的元素。

(5)推荐系统(recommender system)

推荐系统(recommender system),它的目标是向特定用户进行"个性化"推荐。

(6)序列学习

序列学习 是处理输入或输出是可变长度序列的机器学习方法,要求模型能"记住"历史信息来处理前后关联的任务。与传统模型(固定输入输出,如图像分类)不同。

序列学习几种典型的特殊情况:

  • 标记和解析 :是对文本序列进行注释,输入和输出数量基本相同,例如标注出句子中的命名实体等。

  • 自动语音识别 :输入是音频录音,输出是对应的文本记录,音频帧数远多于文本字符数,属于输出比输入短得多的序列到序列学习。

  • 文本到语音 :与自动语音识别相反,输入是文本,输出是音频文件,输出比输入长很多。

  • 机器翻译 :输入和输出的顺序及数量通常都不相同,像德语和英语间的翻译,存在词序调整等情况。

此外,序列学习还在确定用户阅读网页顺序、对话问题等众多其他学习任务中有应用,是当前热门的研究领域。

.

2)无监督学习

无监督学习(unsupervised learning):处理无标签数据,旨在自主发现数据内在模式或结构,无需明确的"目标"指导。

数据中不含有"目标"的机器学习问题通常被为无监督学习(unsupervised learning);

无监督学习可以回答什么样的问题呢?

  • 聚类(clustering)问题:没有标签的情况下,我们是否能给数据分类呢?比如,给定一组用户的网页浏览记录,我们能否将具有相似行为的用户聚类呢?

  • 主成分分析(principal component analysis)问题:我们能否找到少量的参数来准确地捕捉数据的线性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。

  • 因果关系 (causality)和概率图模型(probabilistic graphical models)问题:我们能否描述观察到的许多数据的根本原因?例如,如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据,我们能否简单地根据经验数据发现它们之间的关系?

  • 生成对抗性网络 (generative adversarial networks):目标是,合成与真实数据分布一致的复杂数据(如图像、音频)。**机制,**通过生成器与判别器的对抗训练,使生成数据难以被区分真伪。

.

3)与环境互动

传统的监督学习和无监督学习通常属于离线学习(offline learning),即先收集大量数据,然后在与环境断开的情况下进行学习。

离线学习的优点是可以在孤立的环境中进行模式识别,但其应用范围有限。

与环境互动的学习模式推动机器学习从静态预测迈向动态决策,解决更复杂的现实问题,但需应对环境反馈、动态变化及策略影响等挑战。

图1.3.6 从环境中为监督学习收集数据。

.

4)强化学习

强化学习(Reinforcement Learning, RL)关注智能体(agent)通过与环境的动态交互学习最优决策策略,核心特点如下:

Agent交互循环:智能体在时间序列中持续与环境互动,循环流程为:

  • 观察(Observation):接收环境状态信息(如游戏画面)。

  • 行动(Action):根据策略选择动作(如移动角色)。

  • 奖励(Reward):环境反馈即时收益(如得分增减)。

图1.3.7 强化学习和环境之间的相互作用

强化学习的目标是产生一个好的策略(policy)。 强化学习智能体选择的"动作"受策略控制,即一个从环境观察映射到行动的功能。

当环境可被完全观察到时,强化学习问题被称为马尔可夫决策过程 (markov decision process)。 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机 (contextual bandit problem)。 当没有状态,只有一组最初未知回报的可用动作时,这个问题就是经典的多臂赌博机(multi-armed bandit problem)。

.


声明:资源可能存在第三方来源,若有侵权请联系删除!

相关推荐
NAGNIP10 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab11 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab11 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP15 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年15 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼15 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS15 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区16 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈16 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang17 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx