学习周报二十五

文章目录

摘要
abstract
一、无监督学习
- [1. PCA------主成分分析](#1. PCA——主成分分析)
[二、强化学习](#二、强化学习)
- [2.1 Q-learning算法------RL](#2.1 Q-learning算法——RL)
- [2.2 RL与神经网络](#2.2 RL与神经网络)
三、推荐算法与神经网络结合代码实现
总结

摘要

学习了无监督学习（PCA）、强化学习（Q-learning）的核心原理，以及神经网络与推荐算法结合的实践实现。阐述 PCA 作为线性降维方法的原理、步骤、应用场景，分析其在大模型和深度神经网络中不适用的原因及有限应用场景；其次介绍强化学习的核心框架、Q-learning 算法的原理与贝尔曼更新方程，以及神经网络如何解决传统强化学习的维度灾难问题；最后通过完整的 PyTorch 代码实现 NeuMF 推荐模型，详细说明数据编码、负采样、二分类损失优化、HR/NDCG 评估等关键环节，展示了 GMF（线性交互）与 MLP（非线性交互）融合的推荐模型从数据处理到生成 Top-N 推荐的全流程。

abstract

Studied the core principles of unsupervised learning (PCA) and reinforcement learning (Q-learning), as well as the practical implementation of combining neural networks with recommendation algorithms. Explained the principles, steps, and application scenarios of PCA as a linear dimensionality reduction method, and analyzed the reasons why it is unsuitable for large models and deep neural networks, as well as its limited application scenarios. Next, introduced the core framework of reinforcement learning, the principles of the Q-learning algorithm, and the Bellman update equation, as well as how neural networks address the dimensionality curse in traditional reinforcement learning. Finally, implemented the NeuMF recommendation model with complete PyTorch code, providing detailed explanations of key steps such as data encoding, negative sampling, binary classification loss optimization, and HR/NDCG evaluation, demonstrating the full process of fusing GMF (linear interaction) and MLP (non-linear interaction) recommendation models from data processing to generating Top-N recommendations.

一、无监督学习

1. PCA------主成分分析

主成分分析是一种用于降维和数据压缩的统计方法，通过线性变换，将原始数据中可能相关的多个变量，转换为一组线性不相关的变量，称为"主成分"，同时尽可能保留原始数据的信息（方差）。

在无监督学习中，将多个数量的特征减少，减少存储和计算开销。

原理：

最大化方差。第一个主成分方向是数据方差最大的方向，即数据点在这个方向上最分散（信息量最大）。第二个主成分与第一个正交（垂直），并尽可能解释剩余方差中最大的部分，依此类推。

数学原理与步骤：

假设有 m 条数据，每条数据有 n 个特征（变量）。

步骤一：中心化：将每个特征的数据减去该特征的均值，使得数据的均值为0。这是为了消除量纲影响，使分析集中在数据的"形状"而非"位置"上。

步骤二：计算协方差矩阵：计算所有特征两两之间的协方差，得到一个 n x n 的协方差矩阵。这个矩阵描述了特征之间的线性相关关系和各自的方差。

步骤三：特征值分解：对协方差矩阵进行特征值分解，得到1）特征值：每个特征值的大小，对应了其主成分所携带的方差量。特征值越大，该主成分越重要。2）特征向量：每个特征值对应的特征向量，定义了主成分的方向。向量中的各个值，表示原始变量对该主成分的"贡献权重"，称为"载荷"。

步骤四：选择主成分：将特征值从大到小排序。计算每个主成分的方差贡献率（该主成分特征值 / 所有特征值之和）。计算累计方差贡献率。通常选择累计贡献率达到某个阈值（如80%、90%）的前 k 个主成分，作为降维后的新变量。

步骤五：生成新数据（得分）：将中心化后的原始数据矩阵，投影到选定的 k 个特征向量（主成分方向）上，得到一个新的 m x k 维数据矩阵，这就是降维后的数据，也称为主成分得分。

应用：

数据降维与可视化：将高维数据（如成百上千个特征）降至2维或3维，便于绘制图表，观察数据结构和模式。

数据压缩：用少数主成分代替大量原始变量，减少存储和计算开销。

去除噪声与冗余：通常认为方差小的主成分可能代表了噪声。去除它们可以起到去噪效果。同时，PCA能消除变量间的多重共线性。

特征提取：在图像识别、生物信息学等领域，将原始特征转换为数量更少、更具代表性的新特征。

探索性数据分析：了解数据中哪些方向（变量组合）的变化最重要。

大模型和现代深度神经网络中不适用PCA有多个原因：

1）数据性质与结构：从结构化到非结构化。PCA最适合处理结构化、数值型、连续的数据，其方差-协方差结构是有意义的核心假设是，数据的主要信息（方差）存在于几个正交的线性方向组合中。大模型处理的是非结构化、高维、稀疏、离散的数据。

2）非线性与线性：PCA是一个线性变换。深度学习的核心优势：现代神经网络（全连接层、卷积层、注意力层）都引入了非线性激活函数，它们能够拟合极度复杂的非线性函数，从而学习数据中分层的、抽象的非线性特征表示。当面对图像、语言中的复杂模式时，PCA只能提供一个全局的、线性的最佳"视角"，而神经网络可以学习无数个局部的、非线性的"特征探测器"，并组合起来形成一个分层的理解。

3）维度与计算：PCA需要对 d x d 的协方差矩阵进行特征值分解，其中 d 是特征维度。当 d 极大时（一张1024x1024图像的展平维度超过100万），计算在内存和时间上都是不可行的。

4）PCA的目标：最大化重建误差最小化或投影方差最大化，本质上是一个信号处理/数据压缩的目标。大模型的目标：最大化任务性能（如预测下一个词、图像分类、机器翻译），需要保留对任务至关重要的语义信息，而这些信息未必与数据中的最大方差方向对齐。

5）上下文与顺序：从独立同分布到序列建模。PCA的假设：数据点是独立同分布的。它完全忽略数据的序列顺序或上下文依赖。大模型的核心能力：Transformer等架构的核心是自注意力机制，它显式地建模序列中所有元素之间的长距离依赖关系，对于理解语言、视频、代码等序列数据至关重要。

PCA在神经网络中的应用：

预处理与探索：在处理结构化数据输入神经网络前，可用PCA降维去噪。

分析与可视化：分析训练好的神经网络中间层的激活值，用PCA或t-SNE（非线性）将其降到2/3维进行可视化，理解网络学到了什么。

特定组件：在白化、某些归一化技术或模型压缩中，线性变换的思想有体现。

自监督学习中的应用：在一些自监督学习框架中，被集成进非线性框架。

二、强化学习

强化学习：让一个智能体在一个环境中通过试错来学习如何采取行动，以最大化从环境中获得的累积奖励。

框架：

智能体：学习并做出决策的主体。

环境：智能体交互的外部世界，它对智能体的行动做出响应，并给出新的状态和奖励。

状态：环境在某一时刻的状况描述。

行动：智能体可以做出的选择。

奖励：环境在智能体执行一个行动后给出的即时反馈信号（一个标量数值）。

策略：智能体的行为函数，定义了在给定状态下应采取何种行动。这是智能体要学习的核心。

价值函数：对未来累积奖励的预测。它回答"从这个状态开始，未来总共能得多少分？"的问题。策略好的状态，价值就高。

模型（可选）：对环境动态的模拟，用于预测下一个状态和奖励。有模型学习和无模型学习是RL的两大分支。

关键点：

价值函数是什么：对长期收益的预测，从当前状态（或采取当前动作后）开始，按照我当前的策略，未来我平均能获得多少累积奖励？两种主要类型：状态价值函数 V(s)：衡量一个状态的长期价值。动作价值函数 Q(s, a)：衡量在状态s下采取特定动作a的长期价值。这是Q-Learning等算法的核心。

作用：价值函数是策略优劣的"裁判"。智能体通过学习价值函数来间接改进策略（例如，选择Q值最高的动作）。

模型是什么：智能体对环境动态的认知。它是一个预测器，包含两部分：状态转移预测：给定状态 s 和动作 a，预测下一个状态 s' 的概率。奖励预测：预测即时奖励 r。

作用：如果智能体有一个好的环境模型，它就可以在内心进行模拟和规划，而不必完全依赖实际试错。引出了有模型学习和无模型学习。

2.1 Q-learning算法------RL

Q(s, a)：我们要学习的函数，称为动作价值函数。它是在状态 s 下执行动作 a 所能获得的最大期望累积奖励。

Q-Table：表格，行代表所有可能的状态 s，列代表所有可能的动作 a。每个单元格存储的就是 Q(s, a)。开始时通常是随机初始化或全零。

贝尔曼方程: Q ( s t , a t ) = Q ( s t , a t ) + α ∗ [ r t + γ ∗ m a x a ( Q ( s t + 1 , a ) ) − Q ( s t , a t ) ] Q(s_t, a_t) =Q(s_t, a_t) + α * [ r_t + γ * max_{a}(Q(s_{t+1}, a)) - Q(s_t, a_t) ] Q(st,at)=Q(st,at)+α∗[rt+γ∗maxa(Q(st+1,a))−Q(st,at)].
Q ( s t , a t ) Q(s_t, a_t) Q(st,at)：在时间 t，状态 s t s_t st下，执行动作 a t a_t at 的旧Q值。

α：学习率。取值范围 (0, 1]。控制新信息覆盖旧信息的程度。α=1表示完全用新估计替换旧值；α较小则更新缓慢、稳定。