【AI论文】SurveyX: 通过大型语言模型实现学术调查自动化

摘要：大型语言模型（LLMs）展现了卓越的理解能力和广泛的知识基础，表明它们作为生成自动调查的高效工具的潜力。然而，最近关于自动调查生成的研究仍然受到几个关键限制的阻碍，例如有限的上下文窗口、缺乏深入的内容探索以及缺乏系统的评估框架。我们从人类写作过程中汲取灵感，提出了SurveyX，这是一种高效的结构化自动调查生成系统，它将调查创建过程分为两个阶段：准备阶段和生成阶段。通过创新性地结合在线参考检索、名为AttributeTree的预处理方法和重新润色过程，SurveyX显著提高了调查构成的有效性。实验评估结果表明，SurveyX在内容质量（提高0.259）和引用质量（提高1.76）方面超过了现有的自动调查生成系统，在多个评估标准上接近人类专家的表现。SurveyX生成的调查示例可以在www.surveyx.cn上找到。Huggingface链接：Paper page，论文链接：2502.14776

研究背景和目的

研究背景

近年来，计算机科学领域发展迅速，特别是在自然语言处理（NLP）领域，大型语言模型（LLMs）的兴起极大地推动了文本生成和理解技术的进步。据统计，arXiv.org等学术平台每天接收数千篇新论文，学术论文的数量呈现爆炸式增长。然而，这种信息过载给研究人员带来了巨大挑战，尤其是在理解和追踪特定子领域的技术演进和发展轨迹方面。学术调查（Survey）作为一种系统综述研究现状和进展的工具，对于研究人员来说至关重要。然而，手动编写调查的工作量不断增加，严重威胁到调查的全面性和高质量维持。

传统的学术调查编写过程繁琐且耗时，需要研究人员广泛阅读大量文献，提取关键信息，并进行综合分析和总结。这一过程不仅耗时费力，而且容易受到研究人员主观偏见和认知局限性的影响。随着LLMs的发展，其强大的文本生成和理解能力为自动化调查生成提供了新的可能。然而，现有的自动化调查生成系统仍存在许多不足，如上下文窗口有限、内容讨论不深入以及缺乏系统的评估框架等。

研究目的

针对上述挑战，本研究旨在提出一种高效且结构化的自动调查生成系统------SurveyX。SurveyX旨在利用LLMs的能力，通过创新性地结合在线参考检索、预处理方法和重新润色过程，提高自动调查生成的质量和效率。具体来说，本研究的目的包括：

开发高效的参考检索算法：通过关键词扩展和多轮过滤方法，从互联网中检索与给定调查主题高度相关的参考文献。
设计先进的预处理方法：通过名为AttributeTree的预处理方法，从参考文献中提取关键信息，构建高效的参考材料数据库。
实现自动化的调查生成：利用预处理后的参考材料，自动生成调查的大纲和主体内容，并确保内容的逻辑性和一致性。
引入重新润色过程：通过在线参考检索和RAG（检索增强生成）技术，对生成的调查草稿进行润色和优化，提高内容质量和引用准确性。
建立系统的评估框架：通过引入额外的评估指标，对生成的调查和检索的参考文献进行全面评估，以验证SurveyX的有效性。

研究方法

系统架构

SurveyX的系统架构主要包括两个阶段：准备阶段和生成阶段。

准备阶段：
- 参考检索：开发了一个独立的参考检索模块，该模块包括离线数据源（如从arXiv.org下载的论文）和在线数据源（基于Google Scholar的爬虫系统）。通过关键词扩展算法和多轮过滤方法，从数据源中检索与给定调查主题高度相关的参考文献。
- 参考预处理：设计了名为AttributeTree的预处理方法，通过预定义的属性树模板从参考文献中提取关键信息，并将所有参考文献的属性树组合成属性森林，作为后续生成阶段的参考材料数据库。
生成阶段：
- 大纲生成：提出了名为Outline Optimization的大纲生成方法，该方法首先让LLMs基于属性树生成二级大纲的提示，然后通过合成这些提示来生成二级大纲。接着，通过分离和重新组织二级大纲，生成逻辑清晰、结构明确的一级大纲。
- 内容生成：在内容生成阶段，继续使用在大纲生成阶段采用的基于提示的方法，通过LLMs生成调查的主体内容。同时，确保生成的内容与已有内容保持一致性和连贯性。
- 重新润色：通过RAG-based重写模块和图表生成模块对生成的调查草稿进行润色和优化。RAG-based重写模块利用段落作为查询，从属性森林中检索相关参考材料，并基于这些材料构建提示来重写段落。图表生成模块则基于信息提取模板和生成模板，从参考材料的属性树中提取必要信息，生成图表以丰富调查的表达形式。

关键技术

关键词扩展算法：通过语义聚类和新关键词的语义比较，逐步扩展关键词池，以尽可能全面地检索与给定主题相关的参考文献。
多轮过滤方法：采用粗粒度和细粒度相结合的过滤方法，首先通过嵌入模型计算主题与参考文献摘要之间的语义相关性，选择最相关的Top-K参考文献作为粗粒度过滤结果；然后利用LLMs进行更精确的语义过滤，进一步提高参考文献的质量。
AttributeTree预处理方法：通过预定义的属性树模板，从参考文献中提取关键信息（如背景、问题定义、想法、方法等），并将这些信息组织成属性树的形式，以提高LLMs对参考材料的理解和上下文窗口的利用率。
Outline Optimization大纲生成方法：通过生成提示、合成提示和分离重组等步骤，生成逻辑清晰、结构明确的调查大纲。
RAG-based重写模块：利用段落作为查询，从属性森林中检索相关参考材料，并基于这些材料构建提示来重写段落，以提高引用的准确性和内容的连贯性。

研究结果

内容质量和引用质量评估

实验评估结果表明，SurveyX在内容质量和引用质量方面均优于现有的自动调查生成系统。具体来说：

内容质量：SurveyX在覆盖度、结构、相关性、综合分析和批判性分析等指标上均表现出色，平均得分接近人类专家水平。特别是在结构（4.91）和批判性分析（4.05）方面，SurveyX相比现有系统有显著提升。
引用质量：SurveyX在引用召回率（85.23%）、引用精确率（78.12%）和F1分数（81.52%）方面也表现出色，甚至在引用精确率方面略微超过了人类专家水平。

参考相关性评估

在参考相关性评估方面，SurveyX在语义相关性和LLM相关性指标上接近人类专家水平，但在IoU（插入并集比）指标上仍存在一定差距。然而，作为该领域首个具备全面在线参考检索能力的自动调查生成系统，SurveyX已经展现出了其潜力和应用前景。

消融实验

消融实验结果表明，SurveyX的各个模块均对系统性能有重要贡献。具体来说：

检索算法：在去除检索算法后，覆盖度和相关性指标显著下降，表明检索算法对确保生成调查的全面性和主题相关性至关重要。
AttributeTree预处理方法：在去除AttributeTree方法后，结构、综合分析和批判性分析指标显著下降，同时引用召回率、精确率和F1分数也大幅下降，表明AttributeTree方法对提高LLMs对参考材料的理解和上下文窗口的利用率具有重要作用。
Outline Optimization大纲生成方法：在去除该方法后，结构指标显著下降，表明该方法对生成逻辑清晰、结构明确的调查大纲至关重要。
RAG-based重写模块：在去除该模块后，引用召回率、精确率和F1分数大幅下降，表明该模块对提高生成调查的引用准确性和内容连贯性具有重要作用。

研究局限

尽管SurveyX在自动调查生成方面取得了显著成果，但仍存在一些局限性和挑战：

检索算法性能：尽管SurveyX采用了关键词扩展和多轮过滤方法，但其检索性能仍未达到人类专家水平。未来可以进一步优化检索算法，提高检索的准确性和全面性。
预处理方法的局限性：AttributeTree预处理方法虽然提高了LLMs对参考材料的理解和上下文窗口的利用率，但仍然存在一些局限性。例如，某些复杂参考文献的信息可能无法被完全准确地提取和组织。
图表生成的局限性：SurveyX目前仅支持生成简单的图表（如表格和流程图），对于更复杂的图表（如图像和交互式图表）的支持仍有待加强。
评估框架的完善：尽管SurveyX引入了额外的评估指标来全面评估生成的调查和检索的参考文献，但其评估框架仍需进一步完善，以更好地反映生成调查的质量和实用性。

未来研究方向

针对上述局限性和挑战，未来可以从以下几个方面进行改进和拓展：

优化检索算法：通过引入更先进的机器学习和自然语言处理技术，进一步优化检索算法，提高检索的准确性和全面性，使其性能接近或超过人类专家水平。
改进预处理方法：探索更高效的预处理方法，以更准确地提取和组织复杂参考文献的信息，提高LLMs对参考材料的理解和上下文窗口的利用率。
丰富图表生成功能：开发更强大的图表生成模块，支持生成更多种类的图表（如图像、交互式图表等），以丰富调查的表达形式和提高其可读性。
完善评估框架：进一步完善评估框架，引入更多评估指标和方法，以更全面地反映生成调查的质量和实用性，并促进相关领域的学术交流和合作。
拓展应用领域：除了学术调查生成外，还可以探索SurveyX在其他领域的应用潜力，如市场调研、政策评估等，以充分发挥其自动化文本生成和理解的优势