REALM:一个包含超过 94,000 个大规模记录真实世界大语言模型应用的数据集

2025-03-24 ,由卡内基梅隆大学和加州大学圣塔芭芭拉分校的研究团队创建REALM数据集,该数据集包含超过94,000个从Reddit和新闻文章中收集的LLM用例,涵盖了LLM的多样化应用和用户群体特征。它为研究LLM在不同领域的应用提供了实证基础,有助于推动对LLM社会角色演变的理解。

一、研究背景

大语言模型如 GPT 系列,凭借其强大的自然语言理解和推理能力,已经在多个行业引发了变革。随着 LLM 的能力不断扩展,其在社会、经济以及人机交互等领域的潜在影响也受到了越来越多的关注。然而,目前对于 LLM 在真实世界中的部署和使用情况仍缺乏全面的了解。

目前遇到的困难和挑战:

1、缺乏实证研究:现有的研究大多基于职业活动分类来衡量 LLM 对任务的影响,但这些研究往往缺乏实证基础,难以反映真实世界中的动态变化。

2、数据收集和分类的局限性:部分研究依赖于社交媒体等公共数据源,但这些数据来源存在分类不全面、关键词过滤方法简单等问题,导致数据的精确度和召回率较低。

3、难以关联职业与应用:将 LLM 的应用与特定职业联系起来是一个复杂的过程,需要一个系统且可靠的分类体系来支持,而目前这方面的研究还相对薄弱。

数据集地址:REALM|大型语言模型数据集|社会影响数据集

二、让我们一起来看REALM

REALM(Real-world Applications of Large Language Models)

REALM 是一个包含超过 94,000 个大语言模型真实世界使用案例的数据集,旨在提供对 LLM 在不同领域应用的全面了解。

REALM 数据集涵盖了从 2020 年 6 月(GPT-3 发布)到 2024 年 12 月的数据,包含 15,000 条来自 Reddit 讨论的帖子和 79,000 篇新闻文章。数据集通过综合分类体系,将 LLM 的应用与用户职业联系起来,为研究 LLM 在不同领域的应用提供了丰富的信息。

数据集构建:

数据集的构建过程包括数据收集、数据清洗、关键词提取、模型过滤和多阶段标注等步骤。数据来源包括 Reddit 和新闻文章,通过关键词提取和模型过滤确保数据的相关性。标注过程采用四模块标注管道,包括总结、分类、反思和多标签链接模块,以提高数据的准确性和可靠性。

数据集特点:

1、大规模数据:包含超过 94,000 个真实世界 LLM 使用案例。

2、多源数据:数据来源广泛,涵盖 Reddit 讨论和新闻文章。

3、系统分类:采用综合分类体系,将 LLM 应用与用户职业紧密联系。

4、动态更新:数据覆盖从 2020 年到 2024 年,能够反映 LLM 应用的动态变化。

基准测试:

通过专家标注验证,数据集在LLM用例分类和职业分类任务上分别达到了较高的精确度、召回率和F1分数,证明了其在实证研究中的有效性。

REALM 数据集构建管道

数据收集(Data Collection)

1、数据来源:

**新闻文章(News Articles)和Reddit帖子(Reddit Posts)**是主要的数据来源。

2、关键词搜索(Keyword Searching):

从新闻文章和Reddit帖子中通过关键词搜索来识别潜在的数据点。

3、潜在数据点(Potential Data Point): 通过关键词搜索得到的初步数据点。

4、微调Roberta(Fine-tuned Roberta):

使用微调后的Roberta模型对潜在数据点进行进一步筛选,以确定最终的LLM(大型语言模型)使用案例。

5、LLM使用案例(LLM use cases): 最终确定的LLM使用案例,这些案例将用于后续的数据标注过程。

数据标注(Data Annotation)

1、使用(Usage)和职业(Occupation):

确定使用案例的使用场景和涉及的职业,如教育者、金融从业者等。

2、决策制定(Decision Making)和内容生成(Content Generation):

确定使用案例中涉及的决策制定和内容生成活动。

3、多标签链接(Multi-Label Linking):

如果使用案例涉及多个标签,则进行多标签链接。

4、反思(Reflection):

对使用案例进行反思,以确定是否需要进一步的分类。

5、单阶段分类(Single-Stage Classification):

如果使用案例涉及单个标签,则进行单阶段分类。

6、总结使用案例(Summary of use cases):

对使用案例进行总结,形成最终的标注结果。

7、+ 示例(+ examples):

在总结使用案例时,添加具体的示例以增强标注的准确性和可理解性。

整个流程图展示了从数据收集到数据标注的完整过程,旨在构建一个高质量的数据集,用于研究和开发大型语言模型的使用案例。

按使用情况统计LLM的新闻文章(左)和 Reddit 帖子(右)

按职业划分的新闻文章(左)和 Reddit 帖子(右)

LLM 用于不同职业:新闻文章

LLM 用于不同职业:Reddit 帖子

三、展望REALM应用场景

比如:工厂环境中的过程自动化

以前在工厂里,工人们每天都要进行大量的重复性检查工作。比如,检查设备的运行状态、记录设备的维护历史、检查产品质量等。这些工作不仅繁琐,还容易出错。而且,当设备出现问题时,工人需要手动查阅大量的技术文档和维修记录,才能找到解决方案。这个过程非常耗时,而且在紧急情况下可能会延误维修时间,导致生产停滞。

有了REALM数据集后的变化

现在,有了LLM(大语言模型)的帮助,这些重复性的工作变得更加高效和准确。LLM可以自动完成设备的日常检查任务,比如通过连接到设备的传感器,实时监控设备的运行数据,自动检测异常情况并发出警报。当设备出现问题时,LLM可以快速分析故障原因,并从大量的维修记录和文档中提取相关信息,为维修人员提供详细的解决方案。这样,维修人员可以更快地找到问题所在,及时修复设备,减少停机时间。

此外,LLM还可以自动对设备的维护任务进行分类和优先排序。它可以根据设备的运行状态、维护历史和生产计划,合理安排维护任务,确保设备在最佳状态下运行。这样,工厂的设备管理更加科学、高效,减少了人工干预,提高了生产效率。

更多免费的数据集,请打开:遇见数据集

www.selectdataset.com/

相关推荐
YJlio4 分钟前
Manus AI 与多语言手写识别技术解析
人工智能
MobiCetus1 小时前
如何一键安装所有Python项目的依赖!
开发语言·jvm·c++·人工智能·python·算法·机器学习
宋发元1 小时前
面向对象——开闭原则(Open-Closed Principle, OCP)
人工智能·开闭原则
拓端研究室1 小时前
2025年数智化电商产业带发展研究报告260+份汇总解读|附PDF下载
人工智能
小白天下第一1 小时前
jdk21使用Vosk实现语音文字转换,免费的语音识别
java·人工智能·语音识别
大模型任我行2 小时前
上财:LLM通过强化学习进行金融推理
人工智能·语言模型·自然语言处理·论文笔记
gs801402 小时前
FastBlock是一个专为全闪存场景设计的高性能分布式块存储系统
人工智能
自由鬼2 小时前
Google开源机器学习框架TensorFlow探索更多ViT优化
人工智能·python·深度学习·机器学习·tensorflow·机器训练
青花瓷2 小时前
Yolo_v8的安装测试
人工智能·python·yolo
-一杯为品-2 小时前
【动手学深度学习】#6 卷积神经网络
人工智能·深度学习·cnn