机器学习之三大学习范式:监督学习、无监督学习、强化学习

昨天,DeepSeek正式发布 DeepSeek-V3.2-Exp 模型,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。简单来讲,就是所需求GPU资源变少,API降价了。

AI的飞速发展给我们带来了各种便利,作为程序员,我们也来了解一下AI是如何学会人类知识的,今天主要给大家分享一下机器学习之三大学习范式:监督学习、无监督学习、强化学习。


机器学习三大范式:用"教孩子"来通俗理解

我想可以想像,机器学习就是让计算机"学习"如何完成一项任务,为了便于大家理解,我们用"教孩子"作比喻。

学习方式 核心比喻 关键词 典型任务
监督学习 有标准答案的辅导班 标注、答案、预测 分类(猫狗识别)、回归(预测房价)
无监督学习 自己归纳总结的探索课 模式、结构、分组 聚类(客户分群)、降维(数据可视化)
强化学习 在游戏中摸索的试错法 试错、奖励、策略 围棋AI、机器人控制、自动驾驶

1. 监督学习:就像"有标准答案的辅导班"

核心思想: 我给你大量的"练习题"(数据)和每道题的"标准答案"(标签),你通过学习找出"题目"和"答案"之间的关系。以后我给你一道新题,你就能给出答案。

  • 通俗比喻

    你想教一个孩子识别动物。

    1. 准备学习材料 :你给他看无数张图片,并且每张图片都标注好了这是什么动物:"这是猫"、"这是狗"、"这是兔子"。
    2. 学习过程:孩子通过观察这些带标签的图片,自己总结规律:哦,有胡须、尖耳朵、尾巴长的是猫;吐舌头、体型较大的是狗。
    3. 应用/预测 :现在你给他看一张全新的 动物图片(比如一只猫),他就能根据之前学到的规律,预测出:"这是猫!"
  • 机器学习中的例子

    • 垃圾邮件过滤:系统用很多已经标记为"垃圾邮件"和"正常邮件"的邮件进行训练,学会区分特征,然后自动判断新邮件是否是垃圾邮件。
    • 房价预测:提供房屋的"面积"、"地段"、"卧室数量"(特征)和对应的"真实售价"(标签),让模型学习关系,从而预测新房子的价格。
  • 关键点 :学习数据是带有标签的。


2. 无监督学习:就像"自己归纳总结的探索课"

核心思想: 我不给你标准答案,只给你一大堆原始材料(数据),让你自己观察,自己去发现这些材料中隐藏的内在结构相似性

  • 通俗比喻

    你给孩子一筐混合的、没有标签的积木(三角形、正方形、圆形等)。

    1. 准备学习材料:只是一筐混在一起的积木,没有任何说明。
    2. 学习过程 :孩子不会知道这些积木叫什么名字,但他会自己动手 ,把形状相似的堆在一起:所有三角形的放一堆,所有正方形的放一堆,所有圆形的放一堆。他自己发现了数据中的模式
    3. 应用/发现:这个过程帮助他理解了这筐积木可以按形状分为3类。
  • 机器学习中的例子

    • 客户分群 :电商平台分析用户的购买行为,自动将用户分成"高价值客户"、"价格敏感型客户"、"新客户"等不同群体,以便进行精准营销。注意:算法自己完成分群,但我们事后需要去解读每个群体代表什么。
    • 新闻主题聚类:系统自动将海量的新闻文章按照内容相似度进行分类,把讲体育的归为一类,讲财经的归为一类。
  • 关键点 :学习数据是没有标签 的,目标是发现隐藏结构


3. 强化学习:就像"在游戏中摸索的试错法"

核心思想: 让一个"智能体"在一个"环境"里行动。它做对了就给它"奖励",做错了就给它"惩罚"或没有奖励。通过不断试错,它自己学会一套能获得最大奖励的"策略"。

  • 通俗比喻:教孩子玩一个简单的迷宫游戏。

    1. 设定环境与目标:孩子是"智能体",迷宫是"环境",走出迷宫是"最终目标"。
    2. 试错过程
      • 孩子向左走,撞墙了 -> 惩罚(比如游戏分数-1)。
      • 孩子向右走,道路通畅 -> 小额奖励(分数+1)。
      • 孩子最终成功走出迷宫 -> 巨大奖励(分数+100)!
    3. 学习策略 :孩子不需要你告诉他迷宫地图,他通过成千上万次的尝试,自己摸索出一条能获得最高总分的路径(即最佳策略)。
  • 机器学习中的例子

    • AlphaGo下围棋:智能体(AlphaGo)与环境(棋盘)互动。每走一步棋,它都在评估局势。最终赢了(巨大奖励),它就"知道"之前的一系列走法是好的。
    • 机器人行走:智能体(机器人)尝试移动双腿。摔倒则惩罚,成功前进则奖励。最终学会平稳行走的策略。
    • 自动驾驶:智能体(自动驾驶系统)在模拟环境中驾驶。安全行驶奖励,撞车惩罚。从而学会驾驶策略。
  • 关键点 :通过与环境的交互延迟奖励来学习最佳行为策略。

总结对比

方面 监督学习 无监督学习 强化学习
学习数据 带标签的数据集 无标签的数据集 无需初始数据,通过与环境交互产生数据
学习目标 学习"输入"到"输出"的映射关系,进行预测 发现数据内部的潜在结构(分组、降维等) 学习一套能获得长期最大回报的行动策略
过程 被动学习(从已标注的数据中学习) 主动探索(从无标注的数据中发现) 主动试错(在环境中尝试、获得反馈、调整)
反馈 直接、即时的(每个数据点都有正确答案) 无明确反馈 延迟的、基于奖励/惩罚的信号

希望这个比喻能帮助你清晰地理解这三者之间的根本区别!欢迎大家一起讨论。

相关推荐
那个村的李富贵12 小时前
光影魔术师:CANN加速实时图像风格迁移,让每张照片秒变大师画作
人工智能·aigc·cann
腾讯云开发者13 小时前
“痛点”到“通点”!一份让 AI 真正落地产生真金白银的实战指南
人工智能
CareyWYR13 小时前
每周AI论文速递(260202-260206)
人工智能
hopsky14 小时前
大模型生成PPT的技术原理
人工智能
禁默15 小时前
打通 AI 与信号处理的“任督二脉”:Ascend SIP Boost 加速库深度实战
人工智能·信号处理·cann
心疼你的一切15 小时前
昇腾CANN实战落地:从智慧城市到AIGC,解锁五大行业AI应用的算力密码
数据仓库·人工智能·深度学习·aigc·智慧城市·cann
阿蒙Amon15 小时前
TypeScript学习-第10章:模块与命名空间
学习·ubuntu·typescript
AI绘画哇哒哒15 小时前
【干货收藏】深度解析AI Agent框架:设计原理+主流选型+项目实操,一站式学习指南
人工智能·学习·ai·程序员·大模型·产品经理·转行
数据分析能量站15 小时前
Clawdbot(现名Moltbot)-现状分析
人工智能
那个村的李富贵15 小时前
CANN加速下的AIGC“即时翻译”:AI语音克隆与实时变声实战
人工智能·算法·aigc·cann