【第二十二周】机器学习笔记二十一

三块可乐两块冰2025-12-08 12:39

摘要

自编码器是一种自监督学习方法，通过编码器压缩数据、解码器重建数据的方式，让模型在无标注数据中学习本质特征，可应用于特征提取和数据生成等任务。

abstract

Autoencoders are a self-supervised learning method that enables models to learn essential features from unlabeled data through an encoder-compression and decoder-reconstruction process, applicable to tasks like feature extraction and data generation.

一、自编码器

自编码器通常被视为自监督学习的一种实现方式。为便于理解其背景，我们可简要回顾自监督学习的一般流程：首先利用大量无标签数据，通过设计如"填空"、预测下一单元等预训练任务，使模型学习数据中的潜在规律；待模型在此阶段训练完成后，即可通过微调迁移至各类下游任务中。

二、自编码器的运行

自编码器是一种通过"压缩与重建"机制进行无监督学习的神经网络模型。其核心结构包括编码器和解码器两部分：编码器将高维输入数据压缩为低维的潜表示（特征向量），这一过程迫使网络丢弃冗余信息并提取数据最本质的特征；随后，解码器依据该潜表示尽可能准确地重建出原始数据。模型通过最小化输入与输出之间的重构误差进行训练，从而在无需人工标注的情况下，自动学习数据的内在结构和分布规律。由于其训练目标不依赖外部标签，自编码器被普遍视为自监督学习的一种典型方法，可用于特征提取、数据降维、去噪及生成等任务。