【LLM大模型论文日更】| 大型语言模型用于模拟搜索用户行为

  • 论文https://arxiv.org/pdf/2403.09142
  • 代码:未开源
  • 机构:中国人民大学高瓴人工智能研究院
  • 领域:信息检索
  • 发表:SIGIR2024 短文

Abstract

由于成本效益和可再现性方面的优势,用户模拟已成为信息检索系统面向用户评估的一种有前景的解决方案。然而,准确模拟用户的搜索行为长期以来一直是一个挑战,因为用户在搜索中的行为非常复杂,并受到学习、推理和规划等复杂的认知过程驱动。最近,大型语言模型(LLM)在模拟人类智能方面展示出了显著的潜力,并被用于构建各种任务的自主代理。然而,利用LLM模拟搜索行为的潜力尚未完全探索。在本文中,我们介绍了一种基于LLM的用户搜索行为模拟器,称为USimAgent。所提出的模拟器可以模拟用户在搜索过程中的查询、点击和停止行为,因此能够为特定的搜索任务生成完整的搜索会话。对真实用户行为数据集的实证研究表明,所提出的模拟器在查询生成方面优于现有方法,在预测用户点击和停止行为方面与传统方法相当。这些结果不仅验证了利用LLM进行用户模拟的有效性,也为开发更强大和通用的用户模拟器提供了启示。

Introduction

  • 用户模拟是信息检索系统以用户为中心的评估的有前途的解决方案。
  • 传统模拟方法将用户交互搜索行为分解为独立的步骤,包括提交查询、浏览搜索引擎结果页面(SERPs)、点击结果、阅读和评估文档以及决定何时停止。
  • 大型语言模型(LLMs)在许多任务中实现了人类级别的智能,显示出在模拟用户行为方面的潜力。

Methodology

问题表述(Problem formulation)
  • 目标:给定一个搜索任务 AA,生成一个搜索交互序列 A^* = (A^1, A^1, ..., A^n, A^n, A^*),其中包含交替的查询 A^i和点击 A^i,以及最终的会话停止动作 A^*。
  • 交互序列划分:将整个交互序列分为多个轮次,每一轮包括停止决策以及查询和点击动作。
行动前的推理(Reasoning before acting)
  • 方法参考:借鉴了 ReAct 方法,将动作空间扩展为可能的推理和动作步骤的组合空间。
  • 动作空间:动作空间 A^=A∪A′,其中 A' 是语言空间。
  • 上下文更新:在每一轮 t,根据前 t-1 轮的上下文生成推理,并更新上下文。
  • 推理提示(Prompt):使用推理提示指导大型语言模型(LLM)执行特定推理。
查询重构(Query reformulation)
  • 查询生成:在查询重构步骤中,根据当前上下文和推理结果生成查询 A^q,并更新上下文和交互序列。
点击预测(Click Prediction)
  • SERP 接收:接收针对查询 A^q 的搜索引擎结果页面(SERP),这是一个包含每个结果标题和摘要的列表。
  • 结果选择:基于任务相关性,选择要点击的结果,并更新交互序列。
  • 详细内容阅读:通过阅读点击结果的详细内容,获取观察结果,并更新上下文,准备进行下一轮推理。
整体框架(Overall framework)
  • 多轮操作:USimAgent 在多个轮次中操作,每个轮次由三个不同步骤组成,均由 LLM 执行:推理与行动、查询生成、点击行为。
  • 上下文考虑:在每个步骤中,USimAgent 都会考虑从前一搜索交互生成的上下文。

Experiments

  • 使用公共用户行为数据集进行评估。
  • 将会话生成过程分为三个阶段:查询重构、点击和停止行为,并为每个阶段选择基线模型进行比较分析。
  • 实验结果显示USimAgent在查询生成方面优于基线方法,在模拟点击和停止行为方面与传统模型相当。

Conclusion and Future Work

  • USimAgent是一个利用LLMs进行搜索用户模拟的新框架。
  • 尽管在零样本场景下USimAgent显示出有希望的能力,但其预测准确性可能仍低于在更广泛数据集上训练的模型。
  • 将LLMs与更广泛的数据集结合可能是模拟用户搜索的未来研究方向。

这篇论文的核心贡献是提出了一种新的基于LLMs的用户搜索行为模拟器USimAgent,并在真实用户行为数据集上验证了其有效性。论文还讨论了将LLMs与更广泛的数据集结合以提高模拟精度的潜在研究方向。

相关推荐
小雨下雨的雨几秒前
Flutter鸿蒙共赢——墨染算法:柏林噪声与鸿蒙生态中的数字水墨意境
算法·flutter·华为·交互·harmonyos·鸿蒙
NAGNIP6 小时前
万字长文!回归模型最全讲解!
算法·面试
之歆6 小时前
Spring AI入门到实战到原理源码-MCP
java·人工智能·spring
知乎的哥廷根数学学派6 小时前
面向可信机械故障诊断的自适应置信度惩罚深度校准算法(Pytorch)
人工智能·pytorch·python·深度学习·算法·机器学习·矩阵
且去填词7 小时前
DeepSeek :基于 Schema 推理与自愈机制的智能 ETL
数据仓库·人工智能·python·语言模型·etl·schema·deepseek
待续3017 小时前
订阅了 Qoder 之后,我想通过这篇文章分享一些个人使用心得和感受。
人工智能
weixin_397578027 小时前
人工智能发展历史
人工智能
数字化转型20257 小时前
企业数字化架构集成能力建设
大数据·程序人生·机器学习
强盛小灵通专卖员7 小时前
基于深度学习的山体滑坡检测科研辅导:从论文实验到系统落地的完整思路
人工智能·深度学习·sci·小论文·山体滑坡
OidEncoder7 小时前
从 “粗放清扫” 到 “毫米级作业”,编码器重塑环卫机器人新能力
人工智能·自动化·智慧城市