Binoculars——分析证实大语言模型生成文本的检测和引用量按学科和国家明确显示了使用偏差的多样性和对内容类型的影响

摘要

论文地址：https://www.biorxiv.org/content/10.1101/2024.03.25.586710v2.full.pdf

人工智能技术的进步正在改变数字内容生产和消费的格局。尤其值得注意的是生成式人工智能的快速发展，包括大规模语言模型，如 ChatGPT，它出现于 2022 年，是基于 GPT-3 的大规模语言模型，能够生成质量非常接近人类文本的文本。这些模型可以自由生成考虑到用法、语气和上下文的文本，因此被广泛应用于内容创作。

但与此同时，大规模语言模型所生成内容的可靠性、原创性和质量也引起了人们的关注。此外，人们还讨论了这些技术快速生成大量内容所导致的信息超载问题。

在科学界，科学论文中越来越多地使用大规模语言模型是其广泛应用的必然结果。科学论文在准确性、清晰度和简洁性方面都有严格的标准，人们期望大规模语言模型能够协助完成这些任务。然而，对于科学论文至关重要的人类探究、洞察力、观察和思考却很难通过当前的大规模语言模型来实现。在使用大规模语言模型方面，科学写作确实正处于十字路口。

本文研究了科学文献中大规模语言建模的现状，尤其是在预印本文章领域。通过使用大型开放数据集和先进的检测工具（如 Binoculars LLM-detector），本文对大规模语言模型在科学文章中的影响进行了全面描绘。本文的研究横跨一系列学科，并将大规模语言模型产生的内容激增、搜索趋势、特定学科的影响和作者人口统计特征联系起来。

论文还研究了大规模语言模型的使用与论文影响力之间的关系，结果表明，大规模语言模型的使用与论文被引用次数呈正相关。论文深入探讨了大规模语言模型如何改变科学写作的惯例，并就在学术研究中安全使用大规模语言模型提出了建议。

方法和数据集

发表论文非常耗时，有时需要一年以上的时间。另一方面，基于大规模语言模型的文本生成工具（如 ChatGPT）自 2022 年底以来迅速普及。由于很难在短时间内分析大规模语言模型在正式发表的文献中的影响，本文对提交到预印本平台的论文进行了分析。

预印本平台可以让作者第一时间了解最新研究成果，因为很多作者在向期刊投稿之前都会上传论文的预印本。此外，许多论文甚至是在短时间内提交的，因此可以进行深入分析。此外，预印本平台可以进行大规模访问，从而进行大规模分析。

它从三大预印平台：arXiv、bioRxiv 和 medRxiv 收集 PDF 格式的文章。

这些稿件涵盖了从数学、工程学到生物学和医学等多个学科。从 2022 年 1 月 1 日至 2024 年 3 月 1 日，所有平台的稿件均可下载。这一时期包括 2022 年 12 月 ChatGPT 发布前后的一年。

使用应用程序接口每月从每个平台随机下载多达 1000 篇论文。经过清理和预处理，去除无效文档，最终有 45 129 篇论文被用于分析。这些论文涉及以下领域：生物科学、计算机科学、经济与金融、工程学、环境科学、数学、医学、神经科学和物理科学。我们还使用谷歌趋势的数据来调查 ChatGPT 的影响和使用情况。我们从全球谷歌趋势中收集并分析关键词 ChatGPT 的每日和每周数据。

实验结果

传统 LSTM 和 GRU 生成的文本很容易辨别，而且往往不自然，因此还没有达到实用阶段。然而，自从基于变换器的模型被报道和大规模语言模型被构建以来，所生成的文本已经与人类生成的文本无法区分，这就大大增加了文本检测的难度。特别是在 2022 年底 ChatGPT 发布后，检测变得更加困难。在这种情况下，需要利用隐藏统计模式的检测器来区分大规模语言模型生成的文本。这些检测器不需要特定大规模语言模型的知识，也几乎不需要训练。

一种常见的方法是分析给定文本的复杂性。这种方法基于这样一种观点，即由大规模语言模型生成的文本通常具有较低的易混度。然而，这只适用于由大规模语言模型生成的文本。就科学文章而言，作者很可能使用大规模语言模型来修改内容，而不是使用大规模语言模型来生成整篇文章。

Binoculars 分数是专门针对这一问题开发的工具：如果 Binoculars 分数较高，则文本更有可能是由人类生成的；如果分数低于某个阈值，则内容包含由大规模语言模型生成的文本。Binoculars 通过使用两个大规模语言模型来检测可能包含混合提示的文本。凭借这一特点，Binoculars 在许多基准测试中都显示出了优于 Ghostbuster、GPTZero2 和 DetectGPT 等其他大规模语言模型检测器的性能。本文使用 Binoculars 作为主要检测器。

由于通过双目检测器的论文篇幅较长，每篇论文都会被分割成大小相等的片段，然后将每个片段送入双目检测器。论文中大规模语言模型的痕迹是相应的 Binoculars 分数序列。论文显示，该序列的平均值、方差和最小值对于检测生成的文本非常重要。数据集中所有论文的Binoculars分数的平均值、方差和最小值都是按每篇论文计算的，这三个分数的 30 天移动平均值用于计算 2022 年至 2024 年的三个 Binoculars 分数。这假定目前使用 ChatGPT 的情况需要一段时间才能在提交的论文中反映出来，因为论文的发表需要相对较长的时间。

然后将这三个指标与关键词 ChatGPT 的每周谷歌趋势进行比较。以此来间接衡量大规模语言模型在写作中的使用率和受欢迎程度。下图中的灰色线条显示，自 2022 年 11 月 30 日发布以来，ChatGPT 的搜索趋势有所上升。

趋势显示，三个 Binoculars 分数与趋势相关：在 ChatGPT 发布之前，Binoculars 分数的平均值和最低值较高，而在发布之后，方差较高。这表明发布后人类和ChatGPT 生成的内容之间存在差异，表现为方差和最小值的增加。结果显示，包含 ChatGPT 生成文本的内容总体上有所增加。

此外，本研究还探讨了这种关系在更细的时间尺度上是否成立。同样，我们将每日的谷歌趋势与相同分辨率的 Binoculars 分数进行了比较。不过，我们将时间限制在 ChatGPT 发布之后。上图中的结果表明，这种相关性持续存在，并且与周单位分析一致。仔细观察相关性的显著性就会发现，与 Binoculars 分数的平均值相比，最小值和方差更占优势。

接下来，我们将研究 ChatGPT 在不同领域的使用差异。根据下图中的结果，我们研究了 ChatGPT 和其他大规模语言模型在不同领域的使用情况有何不同。有几个因素可能会对此产生影响。例如，用于训练大规模语言模型的数据分布的偏差可能会导致不同领域的性能差异。在数学等大量使用抽象描述和高度语境化符号的领域，直接使用 ChatGPT 可能会更加困难。对现代数字工具的依赖和亲和力也会影响大规模语言模型的使用。例如，计算机科学领域可能更愿意将 ChatGPT 整合到他们的工作流程中。

实验将所有论文分为几个领域，并分析了ChatGPT 发布前后平均和最低双目评分的分布情况。

下图还显示，在生物科学、计算机科学和工程学等领域，ChatGPT 发布后 Binoculars 的最小值显著下降，这表明 ChatGPT 的使用率更高。特别是，工程学和计算机科学领域的平均望远镜分数也明显下降。这一趋势可能是由于 ChatGPT 研究数据中这些领域的数据丰富所致。在所有其他领域，平均或最低双筒望远镜得分也有所下降，这证实了 ChatGPT 的广泛使用。

我们还调查了不同国家和语言使用 ChatGPT 的差异。影响 ChatGPT 使用的另一个重要因素可能是文章作者的母语。由于许多文章都是用英语发表的，因此第二语言为英语的作者很可能会依赖 ChatGPT。然而，由于我们没有关于作者国籍和母语的所有数据，因此很难直接分析这一点。因此，我们为每个平台设计了一个备选方案，并为数据集中的每篇稿件分配了一个国家/地区。我们选取了投稿数量最多的八个国家进行分析，其余国家/地区则标记为 "其他"。

如下图所示，分析了ChatGPT 发布前后双筒望远镜平均分和最低分的分布情况。

下图还显示，几乎所有国家的最低双筒望远镜得分都有所下降，平均双筒望远镜得分也有所下降，但不太明显。特别是中国、意大利和印度等国家，在 ChatGPT 发布后，平均分和最低双筒望远镜得分的差异较大。这可能与这些国家的母语不包括英语有关。

为了验证这一假设，我们按照官方语言对国家/地区进行了分类。结果显示，虽然自 ChatGPT 发布以来，所有国家/地区的双目评分都有所下降，但在英语为官方语言之一的国家/地区，平均和最低双目评分的总体水平仍然较高。这一发现与之前的一些研究结果一致，即英语非母语者撰写的文本更容易被识别为 LLM 生成的文本。

这些实验结果表明，ChatGPT 的使用因领域和国家/语言而异。特别是在某些领域和英语为第二语言的作者中，使用情况更为明显。

我们还研究了内容类型的影响。我们正在研究大规模语言模型生成的文本如何影响内容类型。直观地说，包含大量现有信息或介绍以往发现的内容可能会受到大规模语言模型的影响。另一方面，具体内容或关于新发现的内容可能不适合由大规模语言模型生成。为了验证这一点，我们使用了基于 NLI 的零镜头文本分类模型，将每篇文章分为10 种内容类型（现象描述、假设提出、方法描述、数据展示、逻辑推理、结果解释、文献综述、比较分析、结论总结和未来研究建议）。

首先，在下图左侧，我们检查了高 Binoculars 分数的文本和低 Binoculars 分数的文本之间的内容类型分布是否稳定。根据整个数据集的平均得分（1.02），文本被分为两组。结果显示，文献综述的 Binoculars得分非常低，而包含新信息和现象描述的数据展示得分最高。高分和低分数据集中的内容类型分布相对稳定，波动比例较小。

下一节将研究 ChatGPT 发布前后各内容类型的 Binoculars 分数差异。从上图右侧可以看出，大多数内容类型的得分都有所下降，而文献综述的得分没有明显下降。被认为是新内容的得分明显下降，如假设的提出、结论的总结、现象的描述和未来研究建议。

最后，它还调查了双目评分与文章影响力之间的关系。我们还调查了内容质量因使用大规模语言模型而受到 "污染 "的可能性。由于这种评估是主观的，因此我们使用引文计数来衡量论文的影响力，利用Semantic Scholar的API来收集数据集中几乎所有论文的引文计数，并比较ChatGPT发布前后Binoculars平均得分与引文计数之间的相关性。研究结果如表 1 所示。结果显示，在 ChatGPT 发布之前，相关性并不显著（0.004214，p=0.56），但在发布之后，相关性变为-0.018911，p 值为 0.002566。这种相关性的变化是显著的（p 值 = 0.007994），表明 ChatGPT 使用得越多（Binoculars 平均得分越低），就越有可能增加引用率。

这些实验结果表明了大规模语言模型生成的文本对内容类型和文章的影响。特别是，在 ChatGPT 发布之后，我们观察到了引用数量增加的趋势。

总结

对过去两年中提交到三个预印本平台（arXiv、bioRxiv 和 medRxiv）的约 45000 篇论文进行的分析表明，在 2022 年底发布 ChatGPT 之后，科学论文中大规模语言模型的使用显著增加。结果显示

通过检查每篇文章的 Binoculars 分数统计，我们发现2022 年 11 月 30 日之后，平均Binoculars 分数显著下降，而且这种下降与谷歌趋势中关键词 "ChatGPT "的数据相关。这表明科学文章中普遍存在由大规模语言模型生成的文本。此外，大规模语言模型在不同学科和国家的使用偏差也被揭示出来。大规模语言模型在计算机科学和工程学领域的使用率尤其高，在英语不是官方语言的国家也是如此。大规模语言模型对内容类型的影响也存在偏差，包含新信息的文本比文献综述的双目评分下降幅度更大。

对Binoculars平均得分和被引用次数之间的月度相关性进行分析后，还发现了一个意想不到的逆转趋势：在 ChatGPT 发布之前，相关性很弱，可以忽略不计，但在发布之后，相关性变成了负值，这表明由大规模语言模型生成的文本，包括论文，更有可能被引用。论文更容易被引用。

然而，这种方法也面临着一些挑战。首先，无法完全识别文本是否由大规模语言模型生成：双目评分依赖于大规模语言模型生成的文本所共有的统计模式，这可能会降低其可靠性，例如由于使用不当。这可能导致其可靠性降低，例如由于使用不当。其他统计工具，如零镜头文本分类模型，也可能犯类似的错误。其次，尽管许多作者倾向于将论文上传到预印本平台，但这些平台并不涵盖所有科学文章，而且不同学科使用预印本的倾向也不尽相同。因此，所使用的数据集并不全面。此外，由于 arXiv 等平台的限制，无法直接获取作者的国家/地区/母语信息。引入国籍估计服务可能会导致某些论文出现错误。此外，如上所述，论文可能包含来自不同语言人群的投稿，这可能导致国家/地区分析不准确。