哥大&Salesforce重磅发布!最丰富的统一对话数据集,几乎支持所有对话任务

夕小瑶科技说 原创

作者 | 小戏、Python

尽管以 ChatGPT 为代表的对话式人工智能概念炒的火热,但是事实上作为当下智能发动机的大模型,其真正的动力源泉------数据集------仍然面临诸多困难

所谓 Garbage In, Garbage Out,这条数据科学的朴素规律在大模型领域也仍然适用,由于当下的数据集缺少多样性与全面性,因此当下的对话式 AI 也在处理多样化对话任务方面存在欠缺。

而最近,来自哥伦比亚大学与 Salesforce 的研究者们一连用两个最高级,最丰富的(Richest)与最多样的(Most Diverse),推出了一个最大的统一的对话数据集 DialogStudio ,DialogStudio 涵盖开放域对话(Open-domain dialogues)、任务导向的对话(Task-oriented dialogues)、自然语言理解(Natural language understanding)、对话式推荐(Conversational recommendation)、对话摘要(Dialogue summarization)与知识驱动的对话(Knowledge-grounded dialogues)等多个领域的数据,包含近 80 个子数据集,如下图左可以看到,DialogStudio 几乎支持对话领域的所有任务,可以极大的帮助对话领域模型与大规模语言预训练模型的研究工作。

并且,DialogStudio 还涵盖众多子领域下的对话任务,如上图右可以看出,DialogStudio 拥有电影、航空、金融、媒体、餐饮等众多与日常生活息息相关的对话数据支持。而除了在领域的覆盖范围面上之外,DialogStudio 还提供了非常人性化的数据访问格式与文档,方便用户轻松使用数据集。

而由于不可避免的对话数据之中包含多余的噪声,为了验证数据集的质量,作者团队使用了 ChatGPT 从包含表意性、正确性、相关性、连贯性、完整性等的多个角度对数据集质量进行了评估,所有分数都在 1-5 分之内,并且认为大于 3 分的属于高质量对话数据,通过对 DialogStudio 中的数据集进行随机抽样(33个随机抽样得到的子数据集),作者评估了这些数据集的质量得分如下图所示,可以看到几乎子数据集都呈现极高的质量

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):

gpt4test.com

由于 DialogStudio 收集的数据来自不同的来源、涉及不同的领域、类型与任务,因此作者团队提出了一种统一的处理模式对所有数据集进行处理,将所有数据集统一为 JSON 字典的数据格式,以存储每个对话的所有相关信息,如对话 ID、领域、任务、内容等待 ,并且,作者还在其中标注了外部知识,对话状态追踪(DST)、意图知识等信息。在 DST 中,作者将预定义的对话状态架构插入到序列之中,对具有固定候选答案的问题,如"酒店星级",将固定答案也插入到数据之中,类似的,在意图知识之中,作者将每轮的真实意图信息放入 "intent" 之中,并将常规意图放入"intent knowledge"下。如下图所示,DialogStudio 拥有更加完整丰富的数据内容以支持下游模型的训练

为了更近一步验证 DialogOhana 的质量,论文使用公开的 HuggingFace Transformer 的代码对下游模型进行训练,并在 CoQA 数据集(多轮对话问答数据集)以及 MultiWOZ 2.2 数据集(最大且最广泛使用的多领域任务导向对话数据集)中对模型性能进行评估,结果如下图所示,显然,对比基线的数据集, DialogOhana 拥有更高的质量,并且在 Zero-shot 场景下也展现了较强的普适性

同时,如下图所示,在未知数据集和任务上 0-shot 和 2-shot 的结果,基于 48 个任务的平均性能,在参数量少了 50 倍的情况下,DialogOhana 击败了 OPT-IML-175,展现了 DialogOhana 强大的泛化能力

总而言之,高质量的数据集是推动 AI 这一领域发展进步的关键,这项工作给出了一个卓越而全面的对话领域数据集,在许多任务上表现了超越其他数据集的稳定性,论文题目与代码链接如下~

论文题目:
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI

论文链接:
arxiv.org/pdf/2307.10...

代码链接:
github.com/salesforce/...

相关推荐
深兰科技3 分钟前
韩国KAIST AI半导体高管项目代表团到访深兰科技,聚焦AI算力与智能产业合作机会
人工智能·机器人·symfony·ai算力·深兰科技·韩国科学技术院·kaist
快乐on9仔9 分钟前
NLP学习(一)transformers之pipeline体验
人工智能·深度学习
冬奇Lab24 分钟前
Agent系列(六):记忆管理——让 Agent 记住重要的事
人工智能·agent
冬奇Lab25 分钟前
一天一个开源项目(第113篇):notebooklm-py - 把 Google NotebookLM 变成可编程 API,还能接入 Claude Code
人工智能·google·开源
字节跳动开源1 小时前
Viking AI 搜索 CLI 正式发布:会说话,就能做搜索推荐
数据库·人工智能·开源
阿杰技术1 小时前
AI 编程助手落地实战:从提效到重构的全场景指南
人工智能·重构
Agent手记1 小时前
制造业生产流程自动化,Agent需要具备哪些能力?深度拆解2026工业级智能体落地范式与核心架构
大数据·人工智能·ai·架构·自动化
道里2 小时前
花了 5 万刀用 AI 写代码之后,这是我的全部经验
前端·人工智能
硅基流动2 小时前
光谷爱计算 × 硅基流动:AI 算力联合运营,共建高效“Token 工厂”
大数据·人工智能