文献阅读分享：强化学习与大语言模型结合的推荐系统LEA

标题	期刊	年份
Reinforcement Learning-based Recommender Systems with Large Language Models for State Reward and Action Modeling	ACM Symposium on Neural Gaze Detection	2024

🌟 研究背景

在信息过载的时代，推荐系统（RS）成为连接用户与相关内容的桥梁。尤其是基于序列的推荐（Sequential Recommendation），在音乐和视频流媒体服务中显得尤为重要。然而，现有的基于强化学习（RL）的推荐方法在利用历史用户-项目互动数据时，面临如何有效模拟用户反馈的挑战。本文提出了一种利用大型语言模型（LLMs）作为环境（LE）的方法，以增强基于RL的推荐系统。

🔍 相关工作

在推荐系统的研究中，已有工作通过门控循环单元（GRU）、卷积神经网络（CNN）和Transformer等模型进行序列推荐。这些模型主要依赖于监督学习，而自监督强化学习（SSRL）则通过训练RL代理来满足用户期望。然而，如何构建一个提供有意义用户反馈的高质量环境，仍是一个未解决的问题。

🚀 方法介绍

本文的核心在于将LLMs作为环境（LE）来模拟用户行为并为RL推荐系统提供反馈。具体方法如下：

状态模型（SM）：通过对比用户-项目标记交互与正负动作，学习有效的状态表示。
奖励模型（RM）：通过奖励提示，基于用户-项目标记交互和特定动作生成奖励分数。
正反馈增强（LEA）：通过提示LE选择潜在的正反馈，增强有限的离线训练数据。

📊 模型图输入输出转变

模型的输入是用户-项目互动序列，输出是针对每个用户的下一个可能互动的项目。状态模型（SM）将用户的历史互动转换为丰富的状态表示，而奖励模型（RM）则根据这些状态和动作预测奖励。LEA方法进一步通过预测正反馈来增强训练数据。

🧪 实验

实验在两个公开数据集上进行：LFM和Industry。通过比较LEA与传统的RL框架（如SNQN和SA2C），我们发现LEA在多个指标上均显示出优越性。特别是，当结合状态和奖励模型时，性能提升最为显著。

🌈 创新点

LLMs作为环境（LE）：首次将LLMs应用于模拟用户行为和提供反馈，增强RL推荐系统。
正反馈增强（LEA）：提出一种新的方法，通过预测正反馈来丰富离线训练数据，提高模型的泛化能力。
参数效率：通过适配器和指令提示，实现了对LLMs的高效微调，无需大幅增加计算资源。