大模型训练数据集汇总

大模型训练数据集汇总

LLM数据集总结

GLUE

简介

当前大多数以上词级别的NLU模型都是针对特定任务设计的,而针对各种任务都能执行的通用模型尚未实现。为了解决这个问题,作者提出了GLUE,希望通过这个评测平台促进通用NLU系统的发展。

任务

  1. GLUE基准测试包含9个英语句子理解任务,涵盖广泛的领域和数据规模。这9个任务包括:
  • CoLA: 语法可接受性判断,判断一个句子是否符合英语语法
  • SST-2: 情感分析,判断电影评论的情感极性
  • MRPC: 释义判断,判断两个句子是否在语义上等价
  • STS-B: 语义相似度,评价两个句子的语义相似度
  • QQP: 释义判断,判断Quora中的问题对是否语义等价
  • MNLI: 自然语言推理,判断一个句子是否可以从另一个句子推断出来
  • QNLI: 将SQuAD问题回答任务改编为自然语言推理任务
  • RTE: 文本蕴含,判断一个文本片段是否可以从另一个文本片段推断出来
  • WNLI: 将Winograd Schema Challenge改编为自然语言推理任务

数据集大小

  1. 任务数据集大小如下:
  • CoLA: 8500
  • SST-2: 67000
  • MRPC: 3700
  • STS-B: 7000
  • QQP: 364000
  • MNLI: 393000
  • QNLI: 108000
  • RTE: 2500
  • WNLI: 634

SQuAD

简介

斯坦福问答数据集(SQuAD),这是一个由众包工作者在维基百科文章上提出的10万多个问题的阅读理解数据集,每个问题的答案都是相应阅读段落的一部分文本。
SQuAD数据集的构建分为三个阶段:1. 筛选文章;2. 通过众包的方式在这些文章上收集问题-答案对;3. 收集额外的答案。首先,作者通过Project Nayuki的内部PageRanks从英语维基百科中获取了前10000篇文章,然后从这些文章中随机抽取了536篇。从这些536篇文章中提取了单独的段落,并去除了图像、图表等。

选择使用维基百科文章作为语料库的原因是,维基百科文章涵盖了广泛的主题,从音乐名人到抽象概念。此外,维基百科内部PageRanks可以帮助获取高质量的文章。通过众包的方式收集问题和答案,可以更快地扩展数据集并增加其多样性。

任务

阅读理解数据集

数据集大小

  1. 数据集中总共包含:
  • 536篇维基百科文章
  • 23,215个段落
  • 100,000+的问题-答案对

其中80%作为训练集,10%作为开发集,10%作为测试集。

所以数据集大小概览如下:

  • 训练集文章数:429篇
  • 训练集段落数:18,572
  • 训练集问题数:约80,000
  • 开发集文章数:53篇
  • 开发集段落数:2,321
  • 开发集问题数:约10,000
  • 测试集文章数:54篇
  • 测试集段落数:2,322
  • 测试集问题数:约10,000

下载地址

https://data.deepai.org/squad1.1.zip

https://rajpurkar.github.io/SQuAD-explorer/dataset/train-v2.0.json

XSUM

简介

XSum-WebArxiveUrls.txt: XSum 数据集由226,711 篇Wayback 存档的 BBC 文章组成,时间跨度近十年(2010 年至 2017 年),涵盖各个领域(例如新闻、政治、体育、天气、商业、技术、科学、健康、家庭、教育、娱乐和艺术)。

下载地址

https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset

持续更新中...

相关推荐
qzhqbb2 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨3 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041083 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌4 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭4 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^4 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
Power20246665 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k5 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫5 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班5 小时前
复现LLM:带你从零认识语言模型
人工智能·语言模型