2025-03-24 ,由卡内基梅隆大学和加州大学圣塔芭芭拉分校的研究团队创建REALM数据集,该数据集包含超过94,000个从Reddit和新闻文章中收集的LLM用例,涵盖了LLM的多样化应用和用户群体特征。它为研究LLM在不同领域的应用提供了实证基础,有助于推动对LLM社会角色演变的理解。
一、研究背景
大语言模型如 GPT 系列,凭借其强大的自然语言理解和推理能力,已经在多个行业引发了变革。随着 LLM 的能力不断扩展,其在社会、经济以及人机交互等领域的潜在影响也受到了越来越多的关注。然而,目前对于 LLM 在真实世界中的部署和使用情况仍缺乏全面的了解。
目前遇到的困难和挑战:
1、缺乏实证研究:现有的研究大多基于职业活动分类来衡量 LLM 对任务的影响,但这些研究往往缺乏实证基础,难以反映真实世界中的动态变化。
2、数据收集和分类的局限性:部分研究依赖于社交媒体等公共数据源,但这些数据来源存在分类不全面、关键词过滤方法简单等问题,导致数据的精确度和召回率较低。
3、难以关联职业与应用:将 LLM 的应用与特定职业联系起来是一个复杂的过程,需要一个系统且可靠的分类体系来支持,而目前这方面的研究还相对薄弱。
数据集地址:REALM|大型语言模型数据集|社会影响数据集
二、让我们一起来看REALM
REALM(Real-world Applications of Large Language Models)
REALM 是一个包含超过 94,000 个大语言模型真实世界使用案例的数据集,旨在提供对 LLM 在不同领域应用的全面了解。
REALM 数据集涵盖了从 2020 年 6 月(GPT-3 发布)到 2024 年 12 月的数据,包含 15,000 条来自 Reddit 讨论的帖子和 79,000 篇新闻文章。数据集通过综合分类体系,将 LLM 的应用与用户职业联系起来,为研究 LLM 在不同领域的应用提供了丰富的信息。
数据集构建:
数据集的构建过程包括数据收集、数据清洗、关键词提取、模型过滤和多阶段标注等步骤。数据来源包括 Reddit 和新闻文章,通过关键词提取和模型过滤确保数据的相关性。标注过程采用四模块标注管道,包括总结、分类、反思和多标签链接模块,以提高数据的准确性和可靠性。
数据集特点:
1、大规模数据:包含超过 94,000 个真实世界 LLM 使用案例。
2、多源数据:数据来源广泛,涵盖 Reddit 讨论和新闻文章。
3、系统分类:采用综合分类体系,将 LLM 应用与用户职业紧密联系。
4、动态更新:数据覆盖从 2020 年到 2024 年,能够反映 LLM 应用的动态变化。
基准测试:
通过专家标注验证,数据集在LLM用例分类和职业分类任务上分别达到了较高的精确度、召回率和F1分数,证明了其在实证研究中的有效性。
REALM 数据集构建管道
数据收集(Data Collection)
1、数据来源:
**新闻文章(News Articles)和Reddit帖子(Reddit Posts)**是主要的数据来源。
2、关键词搜索(Keyword Searching):
从新闻文章和Reddit帖子中通过关键词搜索来识别潜在的数据点。
3、潜在数据点(Potential Data Point): 通过关键词搜索得到的初步数据点。
4、微调Roberta(Fine-tuned Roberta):
使用微调后的Roberta模型对潜在数据点进行进一步筛选,以确定最终的LLM(大型语言模型)使用案例。
5、LLM使用案例(LLM use cases): 最终确定的LLM使用案例,这些案例将用于后续的数据标注过程。
数据标注(Data Annotation)
1、使用(Usage)和职业(Occupation):
确定使用案例的使用场景和涉及的职业,如教育者、金融从业者等。
2、决策制定(Decision Making)和内容生成(Content Generation):
确定使用案例中涉及的决策制定和内容生成活动。
3、多标签链接(Multi-Label Linking):
如果使用案例涉及多个标签,则进行多标签链接。
4、反思(Reflection):
对使用案例进行反思,以确定是否需要进一步的分类。
5、单阶段分类(Single-Stage Classification):
如果使用案例涉及单个标签,则进行单阶段分类。
6、总结使用案例(Summary of use cases):
对使用案例进行总结,形成最终的标注结果。
7、+ 示例(+ examples):
在总结使用案例时,添加具体的示例以增强标注的准确性和可理解性。
整个流程图展示了从数据收集到数据标注的完整过程,旨在构建一个高质量的数据集,用于研究和开发大型语言模型的使用案例。
按使用情况统计LLM的新闻文章(左)和 Reddit 帖子(右)
按职业划分的新闻文章(左)和 Reddit 帖子(右)
LLM 用于不同职业:新闻文章
LLM 用于不同职业:Reddit 帖子
三、展望REALM应用场景
比如:工厂环境中的过程自动化
以前在工厂里,工人们每天都要进行大量的重复性检查工作。比如,检查设备的运行状态、记录设备的维护历史、检查产品质量等。这些工作不仅繁琐,还容易出错。而且,当设备出现问题时,工人需要手动查阅大量的技术文档和维修记录,才能找到解决方案。这个过程非常耗时,而且在紧急情况下可能会延误维修时间,导致生产停滞。
有了REALM数据集后的变化
现在,有了LLM(大语言模型)的帮助,这些重复性的工作变得更加高效和准确。LLM可以自动完成设备的日常检查任务,比如通过连接到设备的传感器,实时监控设备的运行数据,自动检测异常情况并发出警报。当设备出现问题时,LLM可以快速分析故障原因,并从大量的维修记录和文档中提取相关信息,为维修人员提供详细的解决方案。这样,维修人员可以更快地找到问题所在,及时修复设备,减少停机时间。
此外,LLM还可以自动对设备的维护任务进行分类和优先排序。它可以根据设备的运行状态、维护历史和生产计划,合理安排维护任务,确保设备在最佳状态下运行。这样,工厂的设备管理更加科学、高效,减少了人工干预,提高了生产效率。