机器学习之自训练&协同训练

前言

监督学习往往需要大量的标注数据, 而标注数据的成本比较高 . 因此 , 利用大量的无标注数据来提高监督学习的效果有着十分重要的意义. 这种利用少量标注数据和大量无标注数据进行学习的方式称为 半监督学习 ( Semi-Supervised Learning, SSL ). 本文将介绍两种半监督学习算法 : 自训练和协同训练 .

自训练

自训练(Self-training )是一种半监督学习的方法,它通过结合有标签数据和无标签数据来提高模型的性能。在自训练中,首先使用有标签数据进行初始模型的训练,然后使用该模型对无标签数据进行预测,并将置信度较高的预测结果作为伪标签加入到有标签数据集中,再重新训练模型。通过迭代这个过程,逐步扩充有标签数据集和改进模型。
自训练流程图

协同训练

协同训练 ( Co-Training ) 是自训练的一种改进方法 , 通过两个基于不同 视角 ( view ) 的分类器来互相促进.
由于不同视角的条件独立性, 在不同视角上训练出来的模型就相当于从不同视角来理解问题, 具有一定的互补性 . 协同训练就是利用这种互补性来进行自训练的一种方法.
首先在训练集上根据不同视角分别训练两个模型𝑓 1 和 𝑓 2 ,然后用 𝑓 1 和 𝑓2 在无标注数据集上进行预测,各选取预测置信度比较高的样本加入训练集,重新训练两个不同视角的模型,并不断重复这个过程.
协同训练结构图

协同训练的基本框架如下:

  1. 初始阶段:将有标签数据集随机分成两个子集,分别为视角 1 和视角 2 。使用视角 1 的特征训练模型 1 ,使用视角 2 的特征训练模型 2 。
  2. 交替迭代:在每次迭代中,使用已训练好的模型对无标签数据进行预测,并选择置信度较高的样本加入到相应的视角的有标签数据集中。
  3. 模型更新:使用扩充后的有标签数据集重新训练模型 1 和模型 2 。
  4. 重复步骤 2 和步骤 3 ,直到满足停止条件(如达到最大迭代次数或模型性能不再提升)。
相关推荐
墨染天姬20 分钟前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志25 分钟前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_9481142437 分钟前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠38 分钟前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光1 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好1 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力1 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
jinanwuhuaguo1 小时前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin
xiaozhazha_1 小时前
效率提升80%:2026年AI CRM与ERP深度集成的架构设计与实现
人工智能
枫叶林FYL1 小时前
【自然语言处理 NLP】7.2.2 安全性评估与Constitutional AI
人工智能·自然语言处理