哥大&Salesforce重磅发布!最丰富的统一对话数据集,几乎支持所有对话任务

夕小瑶科技说 原创

作者 | 小戏、Python

尽管以 ChatGPT 为代表的对话式人工智能概念炒的火热,但是事实上作为当下智能发动机的大模型,其真正的动力源泉------数据集------仍然面临诸多困难

所谓 Garbage In, Garbage Out,这条数据科学的朴素规律在大模型领域也仍然适用,由于当下的数据集缺少多样性与全面性,因此当下的对话式 AI 也在处理多样化对话任务方面存在欠缺。

而最近,来自哥伦比亚大学与 Salesforce 的研究者们一连用两个最高级,最丰富的(Richest)与最多样的(Most Diverse),推出了一个最大的统一的对话数据集 DialogStudio ,DialogStudio 涵盖开放域对话(Open-domain dialogues)、任务导向的对话(Task-oriented dialogues)、自然语言理解(Natural language understanding)、对话式推荐(Conversational recommendation)、对话摘要(Dialogue summarization)与知识驱动的对话(Knowledge-grounded dialogues)等多个领域的数据,包含近 80 个子数据集,如下图左可以看到,DialogStudio 几乎支持对话领域的所有任务,可以极大的帮助对话领域模型与大规模语言预训练模型的研究工作。

并且,DialogStudio 还涵盖众多子领域下的对话任务,如上图右可以看出,DialogStudio 拥有电影、航空、金融、媒体、餐饮等众多与日常生活息息相关的对话数据支持。而除了在领域的覆盖范围面上之外,DialogStudio 还提供了非常人性化的数据访问格式与文档,方便用户轻松使用数据集。

而由于不可避免的对话数据之中包含多余的噪声,为了验证数据集的质量,作者团队使用了 ChatGPT 从包含表意性、正确性、相关性、连贯性、完整性等的多个角度对数据集质量进行了评估,所有分数都在 1-5 分之内,并且认为大于 3 分的属于高质量对话数据,通过对 DialogStudio 中的数据集进行随机抽样(33个随机抽样得到的子数据集),作者评估了这些数据集的质量得分如下图所示,可以看到几乎子数据集都呈现极高的质量

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):

gpt4test.com

由于 DialogStudio 收集的数据来自不同的来源、涉及不同的领域、类型与任务,因此作者团队提出了一种统一的处理模式对所有数据集进行处理,将所有数据集统一为 JSON 字典的数据格式,以存储每个对话的所有相关信息,如对话 ID、领域、任务、内容等待 ,并且,作者还在其中标注了外部知识,对话状态追踪(DST)、意图知识等信息。在 DST 中,作者将预定义的对话状态架构插入到序列之中,对具有固定候选答案的问题,如"酒店星级",将固定答案也插入到数据之中,类似的,在意图知识之中,作者将每轮的真实意图信息放入 "intent" 之中,并将常规意图放入"intent knowledge"下。如下图所示,DialogStudio 拥有更加完整丰富的数据内容以支持下游模型的训练

为了更近一步验证 DialogOhana 的质量,论文使用公开的 HuggingFace Transformer 的代码对下游模型进行训练,并在 CoQA 数据集(多轮对话问答数据集)以及 MultiWOZ 2.2 数据集(最大且最广泛使用的多领域任务导向对话数据集)中对模型性能进行评估,结果如下图所示,显然,对比基线的数据集, DialogOhana 拥有更高的质量,并且在 Zero-shot 场景下也展现了较强的普适性

同时,如下图所示,在未知数据集和任务上 0-shot 和 2-shot 的结果,基于 48 个任务的平均性能,在参数量少了 50 倍的情况下,DialogOhana 击败了 OPT-IML-175,展现了 DialogOhana 强大的泛化能力

总而言之,高质量的数据集是推动 AI 这一领域发展进步的关键,这项工作给出了一个卓越而全面的对话领域数据集,在许多任务上表现了超越其他数据集的稳定性,论文题目与代码链接如下~

论文题目:
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI

论文链接:
arxiv.org/pdf/2307.10...

代码链接:
github.com/salesforce/...

相关推荐
云知谷3 小时前
【C++基本功】C++适合做什么,哪些领域适合哪些领域不适合?
c语言·开发语言·c++·人工智能·团队开发
rit84324993 小时前
基于MATLAB实现基于距离的离群点检测算法
人工智能·算法·matlab
初学小刘4 小时前
深度学习:从图片数据到模型训练(十分类)
人工智能·深度学习
递归不收敛5 小时前
大语言模型(LLM)入门笔记:嵌入向量与位置信息
人工智能·笔记·语言模型
之墨_5 小时前
【大语言模型】—— 自注意力机制及其变体(交叉注意力、因果注意力、多头注意力)的代码实现
人工智能·语言模型·自然语言处理
从孑开始6 小时前
ManySpeech.MoonshineAsr 使用指南
人工智能·ai·c#·.net·私有化部署·语音识别·onnx·asr·moonshine
涛涛讲AI6 小时前
一段音频多段字幕,让音频能够流畅自然对应字幕 AI生成视频,扣子生成剪映视频草稿
人工智能·音视频·语音识别
可触的未来,发芽的智生6 小时前
新奇特:黑猫警长的纳米世界,忆阻器与神经网络的智慧
javascript·人工智能·python·神经网络·架构
WWZZ20257 小时前
快速上手大模型:机器学习2(一元线性回归、代价函数、梯度下降法)
人工智能·算法·机器学习·计算机视觉·机器人·大模型·slam
AKAMAI7 小时前
数据孤岛破局之战 :跨业务分析的难题攻坚
运维·人工智能·云计算