文献阅读分享:强化学习与大语言模型结合的推荐系统LEA

标题 期刊 年份
Reinforcement Learning-based Recommender Systems with Large Language Models for State Reward and Action Modeling ACM Symposium on Neural Gaze Detection 2024

🌟 研究背景

在信息过载的时代,推荐系统(RS)成为连接用户与相关内容的桥梁。尤其是基于序列的推荐(Sequential Recommendation),在音乐和视频流媒体服务中显得尤为重要。然而,现有的基于强化学习(RL)的推荐方法在利用历史用户-项目互动数据时,面临如何有效模拟用户反馈的挑战。本文提出了一种利用大型语言模型(LLMs)作为环境(LE)的方法,以增强基于RL的推荐系统。

🔍 相关工作

在推荐系统的研究中,已有工作通过门控循环单元(GRU)、卷积神经网络(CNN)和Transformer等模型进行序列推荐。这些模型主要依赖于监督学习,而自监督强化学习(SSRL)则通过训练RL代理来满足用户期望。然而,如何构建一个提供有意义用户反馈的高质量环境,仍是一个未解决的问题。

🚀 方法介绍

本文的核心在于将LLMs作为环境(LE)来模拟用户行为并为RL推荐系统提供反馈。具体方法如下:

  1. 状态模型(SM):通过对比用户-项目标记交互与正负动作,学习有效的状态表示。
  2. 奖励模型(RM):通过奖励提示,基于用户-项目标记交互和特定动作生成奖励分数。
  3. 正反馈增强(LEA):通过提示LE选择潜在的正反馈,增强有限的离线训练数据。

📊 模型图输入输出转变

模型的输入是用户-项目互动序列,输出是针对每个用户的下一个可能互动的项目。状态模型(SM)将用户的历史互动转换为丰富的状态表示,而奖励模型(RM)则根据这些状态和动作预测奖励。LEA方法进一步通过预测正反馈来增强训练数据。

🧪 实验

实验在两个公开数据集上进行:LFM和Industry。通过比较LEA与传统的RL框架(如SNQN和SA2C),我们发现LEA在多个指标上均显示出优越性。特别是,当结合状态和奖励模型时,性能提升最为显著。

🌈 创新点

  • LLMs作为环境(LE):首次将LLMs应用于模拟用户行为和提供反馈,增强RL推荐系统。
  • 正反馈增强(LEA):提出一种新的方法,通过预测正反馈来丰富离线训练数据,提高模型的泛化能力。
  • 参数效率:通过适配器和指令提示,实现了对LLMs的高效微调,无需大幅增加计算资源。
相关推荐
胡玉洋12 分钟前
从新手到高手:全面解析 AI 时代的「魔法咒语」——Prompt
人工智能·ai·prompt·transformer·协议
是店小二呀13 分钟前
Trae 插件 Builder 模式:从 0 到 1 开发天气查询小程序,解锁 AI 编程新体验
人工智能·ai编程·trae
kyle~25 分钟前
深度学习框架---TensorFlow概览
人工智能·深度学习·tensorflow
CodeJourney.1 小时前
ChemBlender:科研绘图创新解决方案
数据库·人工智能·信息可视化·excel
电鱼智能的电小鱼1 小时前
产线视觉检测设备技术方案:基于EFISH-SCB-RK3588/SAIL-RK3588的国产化替代赛扬N100/N150全场景技术解析
linux·人工智能·嵌入式硬件·计算机视觉·视觉检测·实时音视频
妄想成为master1 小时前
计算机视觉----基于锚点的车道线检测、从Line-CNN到CLRNet到CLRKDNet 本文所提算法Line-CNN 后续会更新以下全部算法
人工智能·计算机视觉·车道线检测
夜幕龙1 小时前
LeRobot 项目部署运行逻辑(七)—— ACT 在 Mobile ALOHA 训练与部署
人工智能·深度学习·机器学习
未来之窗软件服务2 小时前
人体肢体渲染-一步几个脚印从头设计数字生命——仙盟创梦IDE
开发语言·ide·人工智能·python·pygame·仙盟创梦ide
Echo``2 小时前
40:相机与镜头选型
开发语言·人工智能·深度学习·计算机视觉·视觉检测
Christo32 小时前
关于在深度聚类中Representation Collapse现象
人工智能·深度学习·算法·机器学习·数据挖掘·embedding·聚类