哥大&Salesforce重磅发布!最丰富的统一对话数据集,几乎支持所有对话任务

夕小瑶科技说 原创

作者 | 小戏、Python

尽管以 ChatGPT 为代表的对话式人工智能概念炒的火热,但是事实上作为当下智能发动机的大模型,其真正的动力源泉------数据集------仍然面临诸多困难

所谓 Garbage In, Garbage Out,这条数据科学的朴素规律在大模型领域也仍然适用,由于当下的数据集缺少多样性与全面性,因此当下的对话式 AI 也在处理多样化对话任务方面存在欠缺。

而最近,来自哥伦比亚大学与 Salesforce 的研究者们一连用两个最高级,最丰富的(Richest)与最多样的(Most Diverse),推出了一个最大的统一的对话数据集 DialogStudio ,DialogStudio 涵盖开放域对话(Open-domain dialogues)、任务导向的对话(Task-oriented dialogues)、自然语言理解(Natural language understanding)、对话式推荐(Conversational recommendation)、对话摘要(Dialogue summarization)与知识驱动的对话(Knowledge-grounded dialogues)等多个领域的数据,包含近 80 个子数据集,如下图左可以看到,DialogStudio 几乎支持对话领域的所有任务,可以极大的帮助对话领域模型与大规模语言预训练模型的研究工作。

并且,DialogStudio 还涵盖众多子领域下的对话任务,如上图右可以看出,DialogStudio 拥有电影、航空、金融、媒体、餐饮等众多与日常生活息息相关的对话数据支持。而除了在领域的覆盖范围面上之外,DialogStudio 还提供了非常人性化的数据访问格式与文档,方便用户轻松使用数据集。

而由于不可避免的对话数据之中包含多余的噪声,为了验证数据集的质量,作者团队使用了 ChatGPT 从包含表意性、正确性、相关性、连贯性、完整性等的多个角度对数据集质量进行了评估,所有分数都在 1-5 分之内,并且认为大于 3 分的属于高质量对话数据,通过对 DialogStudio 中的数据集进行随机抽样(33个随机抽样得到的子数据集),作者评估了这些数据集的质量得分如下图所示,可以看到几乎子数据集都呈现极高的质量

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):

gpt4test.com

由于 DialogStudio 收集的数据来自不同的来源、涉及不同的领域、类型与任务,因此作者团队提出了一种统一的处理模式对所有数据集进行处理,将所有数据集统一为 JSON 字典的数据格式,以存储每个对话的所有相关信息,如对话 ID、领域、任务、内容等待 ,并且,作者还在其中标注了外部知识,对话状态追踪(DST)、意图知识等信息。在 DST 中,作者将预定义的对话状态架构插入到序列之中,对具有固定候选答案的问题,如"酒店星级",将固定答案也插入到数据之中,类似的,在意图知识之中,作者将每轮的真实意图信息放入 "intent" 之中,并将常规意图放入"intent knowledge"下。如下图所示,DialogStudio 拥有更加完整丰富的数据内容以支持下游模型的训练

为了更近一步验证 DialogOhana 的质量,论文使用公开的 HuggingFace Transformer 的代码对下游模型进行训练,并在 CoQA 数据集(多轮对话问答数据集)以及 MultiWOZ 2.2 数据集(最大且最广泛使用的多领域任务导向对话数据集)中对模型性能进行评估,结果如下图所示,显然,对比基线的数据集, DialogOhana 拥有更高的质量,并且在 Zero-shot 场景下也展现了较强的普适性

同时,如下图所示,在未知数据集和任务上 0-shot 和 2-shot 的结果,基于 48 个任务的平均性能,在参数量少了 50 倍的情况下,DialogOhana 击败了 OPT-IML-175,展现了 DialogOhana 强大的泛化能力

总而言之,高质量的数据集是推动 AI 这一领域发展进步的关键,这项工作给出了一个卓越而全面的对话领域数据集,在许多任务上表现了超越其他数据集的稳定性,论文题目与代码链接如下~

论文题目:
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI

论文链接:
arxiv.org/pdf/2307.10...

代码链接:
github.com/salesforce/...

相关推荐
LinQingYanga16 分钟前
极客时间多模态大模型训练营毕业总结(2026年2月8日)
人工智能
pccai-vip18 分钟前
过去24小时AI创业趋势分析
人工智能
SEO_juper18 分钟前
AI SEO实战:整合传统技术与AI生成搜索的优化框架
人工智能·chatgpt·facebook·seo·geo·aeo
pp起床19 分钟前
Gen_AI 补充内容 Logit Lens 和 Patchscopes
人工智能·深度学习·机器学习
方见华Richard21 分钟前
自指-认知几何架构 可行性边界白皮书(务实版)
人工智能·经验分享·交互·原型模式·空间计算
冬奇Lab25 分钟前
AI时代的"工具自由":我是如何进入细糠时代的
人工智能·ai编程
CODECOLLECT1 小时前
技术解析|MDM移动设备管理系统无终身买断制度的底层逻辑
人工智能
北京迅为1 小时前
《【北京迅为】itop-3568开发板NPU使用手册》- 第 7章 使用RKNN-Toolkit-lite2
linux·人工智能·嵌入式·npu
我是一只puppy1 小时前
使用AI进行代码审查
javascript·人工智能·git·安全·源代码管理
阿杰学AI1 小时前
AI核心知识91——大语言模型之 Transformer 架构(简洁且通俗易懂版)
人工智能·深度学习·ai·语言模型·自然语言处理·aigc·transformer