机器学习之三大学习范式:监督学习、无监督学习、强化学习

昨天,DeepSeek正式发布 DeepSeek-V3.2-Exp 模型,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。简单来讲,就是所需求GPU资源变少,API降价了。

AI的飞速发展给我们带来了各种便利,作为程序员,我们也来了解一下AI是如何学会人类知识的,今天主要给大家分享一下机器学习之三大学习范式:监督学习、无监督学习、强化学习。


机器学习三大范式:用"教孩子"来通俗理解

我想可以想像,机器学习就是让计算机"学习"如何完成一项任务,为了便于大家理解,我们用"教孩子"作比喻。

学习方式 核心比喻 关键词 典型任务
监督学习 有标准答案的辅导班 标注、答案、预测 分类(猫狗识别)、回归(预测房价)
无监督学习 自己归纳总结的探索课 模式、结构、分组 聚类(客户分群)、降维(数据可视化)
强化学习 在游戏中摸索的试错法 试错、奖励、策略 围棋AI、机器人控制、自动驾驶

1. 监督学习:就像"有标准答案的辅导班"

核心思想: 我给你大量的"练习题"(数据)和每道题的"标准答案"(标签),你通过学习找出"题目"和"答案"之间的关系。以后我给你一道新题,你就能给出答案。

  • 通俗比喻

    你想教一个孩子识别动物。

    1. 准备学习材料 :你给他看无数张图片,并且每张图片都标注好了这是什么动物:"这是猫"、"这是狗"、"这是兔子"。
    2. 学习过程:孩子通过观察这些带标签的图片,自己总结规律:哦,有胡须、尖耳朵、尾巴长的是猫;吐舌头、体型较大的是狗。
    3. 应用/预测 :现在你给他看一张全新的 动物图片(比如一只猫),他就能根据之前学到的规律,预测出:"这是猫!"
  • 机器学习中的例子

    • 垃圾邮件过滤:系统用很多已经标记为"垃圾邮件"和"正常邮件"的邮件进行训练,学会区分特征,然后自动判断新邮件是否是垃圾邮件。
    • 房价预测:提供房屋的"面积"、"地段"、"卧室数量"(特征)和对应的"真实售价"(标签),让模型学习关系,从而预测新房子的价格。
  • 关键点 :学习数据是带有标签的。


2. 无监督学习:就像"自己归纳总结的探索课"

核心思想: 我不给你标准答案,只给你一大堆原始材料(数据),让你自己观察,自己去发现这些材料中隐藏的内在结构相似性

  • 通俗比喻

    你给孩子一筐混合的、没有标签的积木(三角形、正方形、圆形等)。

    1. 准备学习材料:只是一筐混在一起的积木,没有任何说明。
    2. 学习过程 :孩子不会知道这些积木叫什么名字,但他会自己动手 ,把形状相似的堆在一起:所有三角形的放一堆,所有正方形的放一堆,所有圆形的放一堆。他自己发现了数据中的模式
    3. 应用/发现:这个过程帮助他理解了这筐积木可以按形状分为3类。
  • 机器学习中的例子

    • 客户分群 :电商平台分析用户的购买行为,自动将用户分成"高价值客户"、"价格敏感型客户"、"新客户"等不同群体,以便进行精准营销。注意:算法自己完成分群,但我们事后需要去解读每个群体代表什么。
    • 新闻主题聚类:系统自动将海量的新闻文章按照内容相似度进行分类,把讲体育的归为一类,讲财经的归为一类。
  • 关键点 :学习数据是没有标签 的,目标是发现隐藏结构


3. 强化学习:就像"在游戏中摸索的试错法"

核心思想: 让一个"智能体"在一个"环境"里行动。它做对了就给它"奖励",做错了就给它"惩罚"或没有奖励。通过不断试错,它自己学会一套能获得最大奖励的"策略"。

  • 通俗比喻:教孩子玩一个简单的迷宫游戏。

    1. 设定环境与目标:孩子是"智能体",迷宫是"环境",走出迷宫是"最终目标"。
    2. 试错过程
      • 孩子向左走,撞墙了 -> 惩罚(比如游戏分数-1)。
      • 孩子向右走,道路通畅 -> 小额奖励(分数+1)。
      • 孩子最终成功走出迷宫 -> 巨大奖励(分数+100)!
    3. 学习策略 :孩子不需要你告诉他迷宫地图,他通过成千上万次的尝试,自己摸索出一条能获得最高总分的路径(即最佳策略)。
  • 机器学习中的例子

    • AlphaGo下围棋:智能体(AlphaGo)与环境(棋盘)互动。每走一步棋,它都在评估局势。最终赢了(巨大奖励),它就"知道"之前的一系列走法是好的。
    • 机器人行走:智能体(机器人)尝试移动双腿。摔倒则惩罚,成功前进则奖励。最终学会平稳行走的策略。
    • 自动驾驶:智能体(自动驾驶系统)在模拟环境中驾驶。安全行驶奖励,撞车惩罚。从而学会驾驶策略。
  • 关键点 :通过与环境的交互延迟奖励来学习最佳行为策略。

总结对比

方面 监督学习 无监督学习 强化学习
学习数据 带标签的数据集 无标签的数据集 无需初始数据,通过与环境交互产生数据
学习目标 学习"输入"到"输出"的映射关系,进行预测 发现数据内部的潜在结构(分组、降维等) 学习一套能获得长期最大回报的行动策略
过程 被动学习(从已标注的数据中学习) 主动探索(从无标注的数据中发现) 主动试错(在环境中尝试、获得反馈、调整)
反馈 直接、即时的(每个数据点都有正确答案) 无明确反馈 延迟的、基于奖励/惩罚的信号

希望这个比喻能帮助你清晰地理解这三者之间的根本区别!欢迎大家一起讨论。

相关推荐
NAGNIP8 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab9 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab9 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP13 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年13 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼13 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS13 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区14 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈15 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang15 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx