机器学习基础入门(第五篇):半监督学习与强化学习

一、前言

在前几篇文章中,我们学习了机器学习的两大基本类型:监督学习(Supervised Learning) 与 无监督学习(Unsupervised Learning)。

  • 监督学习依赖大量带标签的数据,适用于分类、回归等任务;

  • 无监督学习则无需标签,常用于聚类、降维、模式发现等问题。

然而,在现实世界中,标注数据往往稀缺而昂贵。例如,为成千上万张医学影像打上疾病标签,需要专业医生的时间与经验;而未标注的数据(例如海量图片、视频、日志信息)却极其丰富。

于是,一种"折中"的方法------半监督学习(Semi-supervised Learning) 应运而生。它结合了监督学习与无监督学习的优势:用少量标注数据引导大量未标注数据学习

除此之外,还有一种完全不同的学习范式------强化学习(Reinforcement Learning)。它不依赖标签,而是让智能体(Agent)在环境中不断试错,通过"奖励"机制学会最优策略。

本文将详细介绍这两种重要的学习方法,它们构成了现代智能系统的基础。


二、半监督学习(Semi-supervised Learning)

1. 半监督学习的动机

传统的监督学习假设所有数据都有标签,但在许多实际问题中,这个假设并不现实。例如:

  • 医学影像识别中,标注一张CT图像可能需要医生几分钟甚至几十分钟;

  • 网络安全检测中,确定哪些流量是"恶意攻击"需要人工分析;

  • 语音识别中,大量语音数据没有文字转录。

而另一方面,大量未标注数据 往往可以轻易获得。半监督学习的目标,就是通过同时利用少量标注数据大量未标注数据,来提升模型的泛化能力。

2. 半监督学习的基本思想

半监督学习的核心假设有三个:

  1. 平滑假设(Smoothness Assumption):在特征空间中,距离较近的样本往往属于同一类别。

  2. 聚类假设(Cluster Assumption):样本自然分布在若干簇中,同一簇的样本具有相同的标签。

  3. 流形假设(Manifold Assumption):高维数据分布在一个低维流形上,模型应学习到这一结构。

利用这些假设,模型可以将少量标注数据的信息"传播"给未标注数据,从而形成更全面的学习。

3. 常见的半监督学习方法

(1)自训练(Self-training)

最早期也是最直观的方法。

  • 首先用少量标注数据训练初始模型;

  • 然后用模型预测未标注数据的标签;

  • 将置信度高的预测结果加入训练集,继续迭代训练。

例如在文本分类中,如果模型对某些未标注新闻的预测置信度达到 95%,则可以将它们作为"伪标签"数据加入下一轮训练。

优点:简单易实现;

缺点:容易积累错误标签(即"伪标签污染")。

(2)协同训练(Co-training)

由 Blum 和 Mitchell 在 1998 年提出,适用于具有两个独立特征视图的数据。

  • 用不同特征视角分别训练两个模型;

  • 两个模型互相给对方提供置信度高的伪标签样本;

  • 不断迭代,共同提升性能。

常用于网页分类、情感分析等场景。

(3)图半监督学习(Graph-based SSL)

将样本视为图中的节点,节点间的边表示相似度。已标注节点的标签可沿边传播给未标注节点。

代表方法:标签传播(Label Propagation)图卷积网络(GCN) 等。

(4)生成模型方法

如基于变分自编码器(VAE)、**生成对抗网络(GAN)**的半监督学习,通过生成模型增强数据分布理解。

(5)现代半监督学习(深度伪标签)

在深度学习时代,Google 提出的 Pseudo LabelMixMatchFixMatch 等算法成为主流。

它们通过数据增强、置信度过滤和一致性正则化(Consistency Regularization)等手段,实现高效的半监督训练。

4. 半监督学习的应用领域

  • 医学影像分析(少量医生标注 + 大量未标注图像)

  • 网络安全与入侵检测

  • 文本分类与情感分析

  • 视频动作识别

  • 自动驾驶感知系统(未标注图像大量存在)

5. 面临的挑战

  • 如何避免伪标签错误的累积?

  • 如何度量未标注样本的不确定性?

  • 不同分布的数据如何有效融合?


三、强化学习(Reinforcement Learning)

1. 基本概念

强化学习(Reinforcement Learning, RL)是一种完全不同的学习范式。

它不依赖标签,而是通过与环境(Environment)交互,不断试错,以最大化**长期奖励(Reward)**为目标。

强化学习的核心理念可以用一句话概括:
"在试错中学习最优策略。"

常见的类比是:

一个小孩学骑自行车,不会有人告诉他"正确姿势",而是靠摔倒、调整、再尝试,直到学会平衡。

2. 强化学习的组成要素

一个强化学习系统通常包含以下五个核心组件:

组件 含义
Agent(智能体) 学习者或决策者
Environment(环境) 智能体所处的世界
State(状态) 当前环境的描述
Action(动作) 智能体可执行的操作
Reward(奖励) 执行动作后的反馈信号

学习的目标是找到一个最优策略 π,使得智能体获得的累计奖励最大化:


3. 强化学习的主要类型

(1)基于值的方法(Value-based)

通过学习一个"状态-动作"价值函数 ( Q(s,a) ),估计在状态 s 下执行动作 a 的期望奖励。

代表算法:

  • Q-learning

  • Deep Q-Network (DQN) ------ 结合深度神经网络进行价值估计,是 DeepMind 的突破性成果。

(2)基于策略的方法(Policy-based)

直接学习一个策略函数 π(a|s),即在状态 s 下选择动作 a 的概率。

代表算法:

  • REINFORCE

  • PPO(Proximal Policy Optimization) ------ 被 OpenAI 广泛使用。

(3)Actor-Critic 方法

结合了上述两种思想:Actor 负责输出策略,Critic 负责评估动作的好坏。

代表算法有:A2C、A3C、DDPG 等。


4. 强化学习的经典应用

  • 游戏智能体:AlphaGo、AlphaStar、OpenAI Five

  • 机器人控制:机械臂操作、自动驾驶导航

  • 推荐系统:基于用户反馈动态优化推荐

  • 金融交易策略优化

  • 能源调度与智能制造

强化学习在需要"长期决策"的问题上展现出巨大潜力。


5. 强化学习的挑战

尽管强化学习成果显著,但在现实落地中仍面临以下难题:

  1. 样本效率低:需要大量交互才能收敛;

  2. 探索与利用的平衡:如何在尝试新策略与利用已知最优策略之间权衡;

  3. 环境复杂性高:真实环境往往噪声大、不可预测;

  4. 奖励设计困难:定义合适的奖励函数是工程中的关键挑战。


四、半监督学习与强化学习的结合

现代研究趋势正在融合不同学习范式。例如:

  • 半监督强化学习(Semi-supervised RL):利用未标注环境数据辅助策略优化;

  • 自监督强化学习(Self-supervised RL):通过预测未来状态或特征变化来提升策略泛化。

这类方法在自动驾驶、智能机器人中展现出极大潜力。


五、总结

本文介绍了两种重要的机器学习方法:

  • 半监督学习:通过少量标注 + 大量未标注数据进行学习,是解决数据稀缺问题的重要方向;

  • 强化学习:让智能体通过试错和奖励信号,自主学习最优策略,是构建智能决策系统的核心技术。

两者在现代人工智能中的地位举足轻重,既是理论研究的热点,也是实际应用的关键支撑。

相关推荐
CappuccinoRose3 分钟前
MATLAB学习文档(二十四)
学习·数学建模·matlab·数据可视化
菜鸟‍7 分钟前
【前端学习】仿Deepseek官网AI聊天网站React
前端·学习·react.js
今天只学一颗糖11 分钟前
Linux学习笔记--GPIO子系统和PinCtrl子系统
linux·笔记·学习
lingggggaaaa26 分钟前
小迪安全v2023学习笔记(一百三十四讲)—— Windows权限提升篇&数据库篇&MySQL&MSSQL&Oracle&自动化项目
java·数据库·windows·笔记·学习·安全·网络安全
工藤学编程36 分钟前
零基础学AI大模型之RAG技术
人工智能
安替-AnTi1 小时前
PandaWiki:AI 驱动的开源知识库系
人工智能·embedding·检索增强·知识库·rag·查询优化
迦蓝叶1 小时前
JAiRouter v1.0.0 正式发布:企业级 AI 服务网关的开源解决方案
java·运维·人工智能·网关·spring·ai·开源
长空任鸟飞_阿康1 小时前
Node.js 核心模块详解:fs 模块原理与应用
前端·人工智能·ai·node.js
可触的未来,发芽的智生1 小时前
触摸未来2025-10-18:生成文字的小宇宙矩阵溯源
人工智能·python·神经网络·程序人生·自然语言处理
武子康1 小时前
AI-调查研究-106-具身智能 机器人学习数据采集工具和手段:传感器、API、遥操作、仿真与真人示教全流程
人工智能·深度学习·机器学习·ai·系统架构·机器人·具身智能