哥大&Salesforce重磅发布!最丰富的统一对话数据集,几乎支持所有对话任务

夕小瑶科技说 原创

作者 | 小戏、Python

尽管以 ChatGPT 为代表的对话式人工智能概念炒的火热,但是事实上作为当下智能发动机的大模型,其真正的动力源泉------数据集------仍然面临诸多困难

所谓 Garbage In, Garbage Out,这条数据科学的朴素规律在大模型领域也仍然适用,由于当下的数据集缺少多样性与全面性,因此当下的对话式 AI 也在处理多样化对话任务方面存在欠缺。

而最近,来自哥伦比亚大学与 Salesforce 的研究者们一连用两个最高级,最丰富的(Richest)与最多样的(Most Diverse),推出了一个最大的统一的对话数据集 DialogStudio ,DialogStudio 涵盖开放域对话(Open-domain dialogues)、任务导向的对话(Task-oriented dialogues)、自然语言理解(Natural language understanding)、对话式推荐(Conversational recommendation)、对话摘要(Dialogue summarization)与知识驱动的对话(Knowledge-grounded dialogues)等多个领域的数据,包含近 80 个子数据集,如下图左可以看到,DialogStudio 几乎支持对话领域的所有任务,可以极大的帮助对话领域模型与大规模语言预训练模型的研究工作。

并且,DialogStudio 还涵盖众多子领域下的对话任务,如上图右可以看出,DialogStudio 拥有电影、航空、金融、媒体、餐饮等众多与日常生活息息相关的对话数据支持。而除了在领域的覆盖范围面上之外,DialogStudio 还提供了非常人性化的数据访问格式与文档,方便用户轻松使用数据集。

而由于不可避免的对话数据之中包含多余的噪声,为了验证数据集的质量,作者团队使用了 ChatGPT 从包含表意性、正确性、相关性、连贯性、完整性等的多个角度对数据集质量进行了评估,所有分数都在 1-5 分之内,并且认为大于 3 分的属于高质量对话数据,通过对 DialogStudio 中的数据集进行随机抽样(33个随机抽样得到的子数据集),作者评估了这些数据集的质量得分如下图所示,可以看到几乎子数据集都呈现极高的质量

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):

gpt4test.com

由于 DialogStudio 收集的数据来自不同的来源、涉及不同的领域、类型与任务,因此作者团队提出了一种统一的处理模式对所有数据集进行处理,将所有数据集统一为 JSON 字典的数据格式,以存储每个对话的所有相关信息,如对话 ID、领域、任务、内容等待 ,并且,作者还在其中标注了外部知识,对话状态追踪(DST)、意图知识等信息。在 DST 中,作者将预定义的对话状态架构插入到序列之中,对具有固定候选答案的问题,如"酒店星级",将固定答案也插入到数据之中,类似的,在意图知识之中,作者将每轮的真实意图信息放入 "intent" 之中,并将常规意图放入"intent knowledge"下。如下图所示,DialogStudio 拥有更加完整丰富的数据内容以支持下游模型的训练

为了更近一步验证 DialogOhana 的质量,论文使用公开的 HuggingFace Transformer 的代码对下游模型进行训练,并在 CoQA 数据集(多轮对话问答数据集)以及 MultiWOZ 2.2 数据集(最大且最广泛使用的多领域任务导向对话数据集)中对模型性能进行评估,结果如下图所示,显然,对比基线的数据集, DialogOhana 拥有更高的质量,并且在 Zero-shot 场景下也展现了较强的普适性

同时,如下图所示,在未知数据集和任务上 0-shot 和 2-shot 的结果,基于 48 个任务的平均性能,在参数量少了 50 倍的情况下,DialogOhana 击败了 OPT-IML-175,展现了 DialogOhana 强大的泛化能力

总而言之,高质量的数据集是推动 AI 这一领域发展进步的关键,这项工作给出了一个卓越而全面的对话领域数据集,在许多任务上表现了超越其他数据集的稳定性,论文题目与代码链接如下~

论文题目:
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI

论文链接:
arxiv.org/pdf/2307.10...

代码链接:
github.com/salesforce/...

相关推荐
Watermelo6171 分钟前
通过MongoDB Atlas 实现语义搜索与 RAG——迈向AI的搜索机制
人工智能·深度学习·神经网络·mongodb·机器学习·自然语言处理·数据挖掘
AI算法-图哥13 分钟前
pytorch量化训练
人工智能·pytorch·深度学习·文生图·模型压缩·量化
大山同学15 分钟前
DPGO:异步和并行分布式位姿图优化 2020 RA-L best paper
人工智能·分布式·语言模型·去中心化·slam·感知定位
机器学习之心16 分钟前
时序预测 | 改进图卷积+informer时间序列预测,pytorch架构
人工智能·pytorch·python·时间序列预测·informer·改进图卷积
天飓43 分钟前
基于OpenCV的自制Python访客识别程序
人工智能·python·opencv
檀越剑指大厂1 小时前
开源AI大模型工作流神器Flowise本地部署与远程访问
人工智能·开源
声网1 小时前
「人眼视觉不再是视频消费的唯一形式」丨智能编解码和 AI 视频生成专场回顾@RTE2024
人工智能·音视频
newxtc1 小时前
【AiPPT-注册/登录安全分析报告-无验证方式导致安全隐患】
人工智能·安全·ai写作·极验·行为验证
技术仔QAQ1 小时前
【tokenization分词】WordPiece, Byte-Pair Encoding(BPE), Byte-level BPE(BBPE)的原理和代码
人工智能·python·gpt·语言模型·自然语言处理·开源·nlp
陌上阳光2 小时前
动手学深度学习70 BERT微调
人工智能·深度学习·bert