【LLM大模型论文日更】| 大型语言模型用于模拟搜索用户行为

OptimaAI2024-08-20 21:52

论文：https://arxiv.org/pdf/2403.09142
代码：未开源
机构：中国人民大学高瓴人工智能研究院
领域：信息检索
发表：SIGIR2024 短文

Abstract

由于成本效益和可再现性方面的优势，用户模拟已成为信息检索系统面向用户评估的一种有前景的解决方案。然而，准确模拟用户的搜索行为长期以来一直是一个挑战，因为用户在搜索中的行为非常复杂，并受到学习、推理和规划等复杂的认知过程驱动。最近，大型语言模型（LLM）在模拟人类智能方面展示出了显著的潜力，并被用于构建各种任务的自主代理。然而，利用LLM模拟搜索行为的潜力尚未完全探索。在本文中，我们介绍了一种基于LLM的用户搜索行为模拟器，称为USimAgent。所提出的模拟器可以模拟用户在搜索过程中的查询、点击和停止行为，因此能够为特定的搜索任务生成完整的搜索会话。对真实用户行为数据集的实证研究表明，所提出的模拟器在查询生成方面优于现有方法，在预测用户点击和停止行为方面与传统方法相当。这些结果不仅验证了利用LLM进行用户模拟的有效性，也为开发更强大和通用的用户模拟器提供了启示。

Introduction

用户模拟是信息检索系统以用户为中心的评估的有前途的解决方案。
传统模拟方法将用户交互搜索行为分解为独立的步骤，包括提交查询、浏览搜索引擎结果页面（SERPs）、点击结果、阅读和评估文档以及决定何时停止。
大型语言模型（LLMs）在许多任务中实现了人类级别的智能，显示出在模拟用户行为方面的潜力。

Methodology

问题表述（Problem formulation）

目标：给定一个搜索任务 AA，生成一个搜索交互序列 A^* = (A^1, A^1, ..., A^n, A^n, A^*)，其中包含交替的查询 A^i和点击 A^i，以及最终的会话停止动作 A^*。
交互序列划分：将整个交互序列分为多个轮次，每一轮包括停止决策以及查询和点击动作。

行动前的推理（Reasoning before acting）

方法参考：借鉴了 ReAct 方法，将动作空间扩展为可能的推理和动作步骤的组合空间。
动作空间：动作空间 A^=A∪A′，其中 A' 是语言空间。
上下文更新：在每一轮 t，根据前 t-1 轮的上下文生成推理，并更新上下文。
推理提示（Prompt）：使用推理提示指导大型语言模型（LLM）执行特定推理。

查询重构（Query reformulation）

查询生成：在查询重构步骤中，根据当前上下文和推理结果生成查询 A^q，并更新上下文和交互序列。

点击预测（Click Prediction）

SERP 接收：接收针对查询 A^q 的搜索引擎结果页面（SERP），这是一个包含每个结果标题和摘要的列表。
结果选择：基于任务相关性，选择要点击的结果，并更新交互序列。
详细内容阅读：通过阅读点击结果的详细内容，获取观察结果，并更新上下文，准备进行下一轮推理。

整体框架（Overall framework）

多轮操作：USimAgent 在多个轮次中操作，每个轮次由三个不同步骤组成，均由 LLM 执行：推理与行动、查询生成、点击行为。
上下文考虑：在每个步骤中，USimAgent 都会考虑从前一搜索交互生成的上下文。

Experiments

使用公共用户行为数据集进行评估。
将会话生成过程分为三个阶段：查询重构、点击和停止行为，并为每个阶段选择基线模型进行比较分析。
实验结果显示USimAgent在查询生成方面优于基线方法，在模拟点击和停止行为方面与传统模型相当。

Conclusion and Future Work

USimAgent是一个利用LLMs进行搜索用户模拟的新框架。
尽管在零样本场景下USimAgent显示出有希望的能力，但其预测准确性可能仍低于在更广泛数据集上训练的模型。
将LLMs与更广泛的数据集结合可能是模拟用户搜索的未来研究方向。

这篇论文的核心贡献是提出了一种新的基于LLMs的用户搜索行为模拟器USimAgent，并在真实用户行为数据集上验证了其有效性。论文还讨论了将LLMs与更广泛的数据集结合以提高模拟精度的潜在研究方向。

上一篇：电力调度控制台作为智能电网的中枢大脑，引领能源高效调度新时代

下一篇：代码随想录Day21

热门推荐

01GitHub 镜像站点 02AI科技热点日报 | 2026年07月01日 032026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？042026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 062026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 大模型 & AI 编程工具实战全总结 09【AI】2026 年具身智能模型和世界模型总结 102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？