REALM：一个包含超过 94,000 个大规模记录真实世界大语言模型应用的数据集

2025-03-24 ,由卡内基梅隆大学和加州大学圣塔芭芭拉分校的研究团队创建REALM数据集，该数据集包含超过94,000个从Reddit和新闻文章中收集的LLM用例，涵盖了LLM的多样化应用和用户群体特征。它为研究LLM在不同领域的应用提供了实证基础，有助于推动对LLM社会角色演变的理解。

一、研究背景

大语言模型如 GPT 系列，凭借其强大的自然语言理解和推理能力，已经在多个行业引发了变革。随着 LLM 的能力不断扩展，其在社会、经济以及人机交互等领域的潜在影响也受到了越来越多的关注。然而，目前对于 LLM 在真实世界中的部署和使用情况仍缺乏全面的了解。

目前遇到的困难和挑战：

1、缺乏实证研究：现有的研究大多基于职业活动分类来衡量 LLM 对任务的影响，但这些研究往往缺乏实证基础，难以反映真实世界中的动态变化。

2、数据收集和分类的局限性：部分研究依赖于社交媒体等公共数据源，但这些数据来源存在分类不全面、关键词过滤方法简单等问题，导致数据的精确度和召回率较低。

3、难以关联职业与应用：将 LLM 的应用与特定职业联系起来是一个复杂的过程，需要一个系统且可靠的分类体系来支持，而目前这方面的研究还相对薄弱。

数据集地址：REALM|大型语言模型数据集|社会影响数据集

二、让我们一起来看REALM

REALM（Real-world Applications of Large Language Models）

REALM 是一个包含超过 94,000 个大语言模型真实世界使用案例的数据集，旨在提供对 LLM 在不同领域应用的全面了解。

REALM 数据集涵盖了从 2020 年 6 月（GPT-3 发布）到 2024 年 12 月的数据，包含 15,000 条来自 Reddit 讨论的帖子和 79,000 篇新闻文章。数据集通过综合分类体系，将 LLM 的应用与用户职业联系起来，为研究 LLM 在不同领域的应用提供了丰富的信息。

数据集构建：

数据集的构建过程包括数据收集、数据清洗、关键词提取、模型过滤和多阶段标注等步骤。数据来源包括 Reddit 和新闻文章，通过关键词提取和模型过滤确保数据的相关性。标注过程采用四模块标注管道，包括总结、分类、反思和多标签链接模块，以提高数据的准确性和可靠性。

数据集特点：

1、大规模数据：包含超过 94,000 个真实世界 LLM 使用案例。

2、多源数据：数据来源广泛，涵盖 Reddit 讨论和新闻文章。

3、系统分类：采用综合分类体系，将 LLM 应用与用户职业紧密联系。

4、动态更新：数据覆盖从 2020 年到 2024 年，能够反映 LLM 应用的动态变化。

基准测试：

通过专家标注验证，数据集在LLM用例分类和职业分类任务上分别达到了较高的精确度、召回率和F1分数，证明了其在实证研究中的有效性。

REALM 数据集构建管道

数据收集（Data Collection）

1、数据来源：

**新闻文章（News Articles）和Reddit帖子（Reddit Posts）**是主要的数据来源。

2、关键词搜索（Keyword Searching）：

从新闻文章和Reddit帖子中通过关键词搜索来识别潜在的数据点。

3、潜在数据点（Potential Data Point）：通过关键词搜索得到的初步数据点。

4、微调Roberta（Fine-tuned Roberta）：

使用微调后的Roberta模型对潜在数据点进行进一步筛选，以确定最终的LLM（大型语言模型）使用案例。

5、LLM使用案例（LLM use cases）：最终确定的LLM使用案例，这些案例将用于后续的数据标注过程。

数据标注（Data Annotation）

1、使用（Usage）和职业（Occupation）：

确定使用案例的使用场景和涉及的职业，如教育者、金融从业者等。

2、决策制定（Decision Making）和内容生成（Content Generation）：

确定使用案例中涉及的决策制定和内容生成活动。

3、多标签链接（Multi-Label Linking）：

如果使用案例涉及多个标签，则进行多标签链接。

4、反思（Reflection）：

对使用案例进行反思，以确定是否需要进一步的分类。

5、单阶段分类（Single-Stage Classification）：

如果使用案例涉及单个标签，则进行单阶段分类。

6、总结使用案例（Summary of use cases）：

对使用案例进行总结，形成最终的标注结果。

7、+ 示例（+ examples）：

在总结使用案例时，添加具体的示例以增强标注的准确性和可理解性。

整个流程图展示了从数据收集到数据标注的完整过程，旨在构建一个高质量的数据集，用于研究和开发大型语言模型的使用案例。

按使用情况统计LLM的新闻文章（左）和 Reddit 帖子（右）

按职业划分的新闻文章（左）和 Reddit 帖子（右）

LLM 用于不同职业：新闻文章

LLM 用于不同职业：Reddit 帖子

三、展望REALM应用场景

比如：工厂环境中的过程自动化

以前在工厂里，工人们每天都要进行大量的重复性检查工作。比如，检查设备的运行状态、记录设备的维护历史、检查产品质量等。这些工作不仅繁琐，还容易出错。而且，当设备出现问题时，工人需要手动查阅大量的技术文档和维修记录，才能找到解决方案。这个过程非常耗时，而且在紧急情况下可能会延误维修时间，导致生产停滞。

有了REALM数据集后的变化

现在，有了LLM（大语言模型）的帮助，这些重复性的工作变得更加高效和准确。LLM可以自动完成设备的日常检查任务，比如通过连接到设备的传感器，实时监控设备的运行数据，自动检测异常情况并发出警报。当设备出现问题时，LLM可以快速分析故障原因，并从大量的维修记录和文档中提取相关信息，为维修人员提供详细的解决方案。这样，维修人员可以更快地找到问题所在，及时修复设备，减少停机时间。

此外，LLM还可以自动对设备的维护任务进行分类和优先排序。它可以根据设备的运行状态、维护历史和生产计划，合理安排维护任务，确保设备在最佳状态下运行。这样，工厂的设备管理更加科学、高效，减少了人工干预，提高了生产效率。