哥大&Salesforce重磅发布！最丰富的统一对话数据集，几乎支持所有对话任务

夕小瑶科技说原创

作者 | 小戏、Python

尽管以 ChatGPT 为代表的对话式人工智能概念炒的火热，但是事实上作为当下智能发动机的大模型，其真正的动力源泉------数据集------仍然面临诸多困难。

所谓 Garbage In, Garbage Out，这条数据科学的朴素规律在大模型领域也仍然适用，由于当下的数据集缺少多样性与全面性，因此当下的对话式 AI 也在处理多样化对话任务方面存在欠缺。

而最近，来自哥伦比亚大学与 Salesforce 的研究者们一连用两个最高级，最丰富的（Richest）与最多样的（Most Diverse），推出了一个最大的统一的对话数据集 DialogStudio ，DialogStudio 涵盖开放域对话（Open-domain dialogues）、任务导向的对话（Task-oriented dialogues）、自然语言理解（Natural language understanding）、对话式推荐（Conversational recommendation）、对话摘要（Dialogue summarization）与知识驱动的对话（Knowledge-grounded dialogues）等多个领域的数据，包含近 80 个子数据集，如下图左可以看到，DialogStudio 几乎支持对话领域的所有任务，可以极大的帮助对话领域模型与大规模语言预训练模型的研究工作。

并且，DialogStudio 还涵盖众多子领域下的对话任务，如上图右可以看出，DialogStudio 拥有电影、航空、金融、媒体、餐饮等众多与日常生活息息相关的对话数据支持。而除了在领域的覆盖范围面上之外，DialogStudio 还提供了非常人性化的数据访问格式与文档，方便用户轻松使用数据集。

而由于不可避免的对话数据之中包含多余的噪声，为了验证数据集的质量，作者团队使用了 ChatGPT 从包含表意性、正确性、相关性、连贯性、完整性等的多个角度对数据集质量进行了评估，所有分数都在 1-5 分之内，并且认为大于 3 分的属于高质量对话数据，通过对 DialogStudio 中的数据集进行随机抽样（33个随机抽样得到的子数据集），作者评估了这些数据集的质量得分如下图所示，可以看到几乎子数据集都呈现极高的质量。

大模型研究测试传送门

GPT-4能力研究传送门（遇浏览器警告点高级/继续访问即可）：

gpt4test.com

由于 DialogStudio 收集的数据来自不同的来源、涉及不同的领域、类型与任务，因此作者团队提出了一种统一的处理模式对所有数据集进行处理，将所有数据集统一为 JSON 字典的数据格式，以存储每个对话的所有相关信息，如对话 ID、领域、任务、内容等待，并且，作者还在其中标注了外部知识，对话状态追踪（DST）、意图知识等信息。在 DST 中，作者将预定义的对话状态架构插入到序列之中，对具有固定候选答案的问题，如"酒店星级"，将固定答案也插入到数据之中，类似的，在意图知识之中，作者将每轮的真实意图信息放入 "intent" 之中，并将常规意图放入"intent knowledge"下。如下图所示，DialogStudio 拥有更加完整丰富的数据内容以支持下游模型的训练。

为了更近一步验证 DialogOhana 的质量，论文使用公开的 HuggingFace Transformer 的代码对下游模型进行训练，并在 CoQA 数据集（多轮对话问答数据集）以及 MultiWOZ 2.2 数据集（最大且最广泛使用的多领域任务导向对话数据集）中对模型性能进行评估，结果如下图所示，显然，对比基线的数据集， DialogOhana 拥有更高的质量，并且在 Zero-shot 场景下也展现了较强的普适性。

同时，如下图所示，在未知数据集和任务上 0-shot 和 2-shot 的结果，基于 48 个任务的平均性能，在参数量少了 50 倍的情况下，DialogOhana 击败了 OPT-IML-175，展现了 DialogOhana 强大的泛化能力。

总而言之，高质量的数据集是推动 AI 这一领域发展进步的关键，这项工作给出了一个卓越而全面的对话领域数据集，在许多任务上表现了超越其他数据集的稳定性，论文题目与代码链接如下~

论文题目：
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI

论文链接：
arxiv.org/pdf/2307.10...

代码链接：
github.com/salesforce/...