【评估与测试】数据集合集,宝藏合集!

本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

NumGLUE

  • 发布方:

    Microsoft Research·Arizona State University·Allen Institute for AI

  • 发布时间:

    2022-04-12

  • 简介:

    NumGLUE 是一个多任务基准测试,用于评估人工智能系统在八个不同任务上的性能,其核心需要简单的算术理解。

  • 下载地址:

    https://allenai.org/data/numglue

  • 论文地址:

    https://arxiv.org/pdf/2204.05660

2

ARB

  • 发布方:

    苏黎世联邦理工学院·佐治亚理工学院·DuckAI

  • 发布时间:

    2023-07-01

  • 简介:

    ARB 是一个新颖的基准数据集,由高级推理问题组成,旨在评估法学硕士在文本理解和专家领域推理方面的能力,提供比以前的基准更具挑战性的测试,其特点是测试更深入的数学、物理、生物、化学和法律知识。

  • 下载地址:

    https://github.com/TheDuckAI/arb

  • 论文地址:

    https://arxiv.org/pdf/2307.13692.pdf

3

UniMER Dataset

  • 发布方:

    上海人工智能实验室

  • 发布时间:

    2024-05-06

  • 简介:

    UniMER数据集是专门为通用数学表达式识别(MER)发布的数据集。它包含了真实全面的UniMER-1M训练集,拥有超过一百万个代表广泛和复杂数学表达式的实例,以及精心设计的UniMER测试集,用于在真实世界场景中评估MER模型。数据集详情如下:

    UniMER-1M 训练集:

    总样本数:1,061,791

    组成:简洁与复杂、扩展公式表达式的平衡融合

    目标:帮助训练鲁棒性强、高精度的MER模型,增强识别准确性和模型泛化能力

    UniMER 测试集:

    总样本数:23,757,分为四种表达式类型:

    简单印刷表达式(SPE):6,762 个样本

    复杂印刷表达式(CPE):5,921 个样本

    屏幕截图表达式(SCE):4,742 个样本

    手写表达式(HWE):6,332 个样本

    目的:为MER模型提供一个全面的评估平台,以准确评估真实场景下各类公式识别能力

  • 下载地址:

    https://github.com/opendatalab/UniMERNet

  • 论文地址:

    https://arxiv.org/abs/2404.15254

4

FeedbackQA

  • 发布方:

    加州大学·麦吉尔大学

  • 发布时间:

    2022

  • 简介:

    我们收集了一个基于检索的 QA 数据集,FeedbackQA,其中包含来自用户的交互式反馈。我们通过将基础 QA 系统部署给众包工作者来收集此数据集,然后众包工作者参与该系统并就其答案的质量提供反馈。反馈包含结构化评级和非结构化自然语言解释。检查底部的数据集浏览器以获取一些真实示例。

  • 下载地址:

    https://mcgill-nlp.github.io/feedbackqa/

  • 论文地址:

    https://arxiv.org/pdf/2204.03025.pdf

5

DRAW-1k

  • 发布方:

    伊利诺伊大学厄巴纳香槟分校·Microsoft Research

  • 发布时间:

    2016-09-21

  • 简介:

    DRAW-1K是一个由 1000 个代数应用题组成的数据集,半自动注释用于评估自动求解器。 DRAW 包括黄金系数对齐,这是唯一标识方程系统的推导所必需的。

    作者提出了一种针对代数问题自动求解器的新评估方法,它可以识别现有评估方法忽略的错误。他们的建议是使用推导来评估此类求解器,推导反映了如何从文字问题构建方程系统。为了实现这一目标,他们开发了一种算法来检查两个推导之间的等价性,并展示了如何将推导注释半自动添加到现有数据集中。为了使实验更加全面,我们添加了 DRAW-1K 的推导注释,这是一个包含 1000 个一般代数应用题的新数据集。在实验中,他们发现带注释的推导可以比以前使用的指标更准确地评估自动求解器。他们发布了 2300 多个代数应用题的推导注释,以供未来评估。

  • 下载地址:

    https://www.microsoft.com/en-us/download/details.aspx?id=52628

  • 论文地址:

    https://arxiv.org/pdf/1609.07197

6

SingleOP(Quantities)

  • 发布方:

    约翰霍普金斯大学·伊利诺伊大学厄巴纳香槟分校

  • 发布时间:

    2015-01-13

  • 简介:

    用于研究自然语言文本中数量使用的数据。

    如果约翰尼有五个苹果和七个橙子,他想与他的三个朋友分享它们,计算机能否理解文本并计算出每个人得到多少个水果?

    得益于伊利诺伊大学开发的新软件,机器现在可以学习理解用语言表达的数学推理,这可以极大地改进搜索引擎和数据访问,并促进数学教育。

  • 下载地址:

    https://cogcomp.seas.upenn.edu/page/publication_view/759

  • 论文地址:https://cogcomp.seas.upenn.edu/papers/RoyViRo15.pdf

7

ChemBench4K

8

SingleEQ

9

ProofWriter

  • 发布方:

    艾伦人工智能研究所

  • 发布时间:

    2020-06-03

  • 简介:

    这些数据集伴随着论文"ProofWriter:在自然语言上生成含义、证明和溯因陈述"。它们包含更新的 RuleTaker 风格的数据集,其中包含 50 万个问题、答案和基于自然语言规则库的证明,用于表明 Transformer 可以模拟对用语言表达的规则进行推理,包括证明生成。它包括使用封闭和开放世界语义的变体。证明包括中间结论。额外的注释提供数据来训练迭代的 ProofWriter 模型以及溯因推理来确定不确定的陈述。

  • 下载地址:

    https://allenai.org/data/proofwriter

  • 论文地址:

    https://arxiv.org/pdf/2012.13048.pdf

10

DMath (Diverse Math Word Problems)

温馨 小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

相关推荐
wowocpp38 分钟前
查看 磁盘文件系统格式 linux ubuntu blkid ext4
linux·数据库·ubuntu
程序小旭3 小时前
机器视觉基础—双目相机
计算机视觉·双目相机
2401_883041084 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
青云交4 小时前
大数据新视界 -- 大数据大厂之 Impala 性能优化:融合机器学习的未来之路(上 (2-1))(11/30)
大数据·计算资源·应用案例·数据交互·impala 性能优化·机器学习融合·行业拓展
AI极客菌5 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭5 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^5 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
UestcXiye5 小时前
《TCP/IP网络编程》学习笔记 | Chapter 3:地址族与数据序列
c++·计算机网络·ip·tcp
Power20246666 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k6 小时前
AndroidLab:一个系统化的Android代理框架,包含操作环境和可复现的基准测试,支持大型语言模型和多模态模型。
android·人工智能·机器学习·语言模型