【评估与测试】数据集合集,宝藏合集!

本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

NumGLUE

  • 发布方:

    Microsoft Research·Arizona State University·Allen Institute for AI

  • 发布时间:

    2022-04-12

  • 简介:

    NumGLUE 是一个多任务基准测试,用于评估人工智能系统在八个不同任务上的性能,其核心需要简单的算术理解。

  • 下载地址:

    https://allenai.org/data/numglue

  • 论文地址:

    https://arxiv.org/pdf/2204.05660

2

ARB

  • 发布方:

    苏黎世联邦理工学院·佐治亚理工学院·DuckAI

  • 发布时间:

    2023-07-01

  • 简介:

    ARB 是一个新颖的基准数据集,由高级推理问题组成,旨在评估法学硕士在文本理解和专家领域推理方面的能力,提供比以前的基准更具挑战性的测试,其特点是测试更深入的数学、物理、生物、化学和法律知识。

  • 下载地址:

    https://github.com/TheDuckAI/arb

  • 论文地址:

    https://arxiv.org/pdf/2307.13692.pdf

3

UniMER Dataset

  • 发布方:

    上海人工智能实验室

  • 发布时间:

    2024-05-06

  • 简介:

    UniMER数据集是专门为通用数学表达式识别(MER)发布的数据集。它包含了真实全面的UniMER-1M训练集,拥有超过一百万个代表广泛和复杂数学表达式的实例,以及精心设计的UniMER测试集,用于在真实世界场景中评估MER模型。数据集详情如下:

    UniMER-1M 训练集:

    总样本数:1,061,791

    组成:简洁与复杂、扩展公式表达式的平衡融合

    目标:帮助训练鲁棒性强、高精度的MER模型,增强识别准确性和模型泛化能力

    UniMER 测试集:

    总样本数:23,757,分为四种表达式类型:

    简单印刷表达式(SPE):6,762 个样本

    复杂印刷表达式(CPE):5,921 个样本

    屏幕截图表达式(SCE):4,742 个样本

    手写表达式(HWE):6,332 个样本

    目的:为MER模型提供一个全面的评估平台,以准确评估真实场景下各类公式识别能力

  • 下载地址:

    https://github.com/opendatalab/UniMERNet

  • 论文地址:

    https://arxiv.org/abs/2404.15254

4

FeedbackQA

  • 发布方:

    加州大学·麦吉尔大学

  • 发布时间:

    2022

  • 简介:

    我们收集了一个基于检索的 QA 数据集,FeedbackQA,其中包含来自用户的交互式反馈。我们通过将基础 QA 系统部署给众包工作者来收集此数据集,然后众包工作者参与该系统并就其答案的质量提供反馈。反馈包含结构化评级和非结构化自然语言解释。检查底部的数据集浏览器以获取一些真实示例。

  • 下载地址:

    https://mcgill-nlp.github.io/feedbackqa/

  • 论文地址:

    https://arxiv.org/pdf/2204.03025.pdf

5

DRAW-1k

  • 发布方:

    伊利诺伊大学厄巴纳香槟分校·Microsoft Research

  • 发布时间:

    2016-09-21

  • 简介:

    DRAW-1K是一个由 1000 个代数应用题组成的数据集,半自动注释用于评估自动求解器。 DRAW 包括黄金系数对齐,这是唯一标识方程系统的推导所必需的。

    作者提出了一种针对代数问题自动求解器的新评估方法,它可以识别现有评估方法忽略的错误。他们的建议是使用推导来评估此类求解器,推导反映了如何从文字问题构建方程系统。为了实现这一目标,他们开发了一种算法来检查两个推导之间的等价性,并展示了如何将推导注释半自动添加到现有数据集中。为了使实验更加全面,我们添加了 DRAW-1K 的推导注释,这是一个包含 1000 个一般代数应用题的新数据集。在实验中,他们发现带注释的推导可以比以前使用的指标更准确地评估自动求解器。他们发布了 2300 多个代数应用题的推导注释,以供未来评估。

  • 下载地址:

    https://www.microsoft.com/en-us/download/details.aspx?id=52628

  • 论文地址:

    https://arxiv.org/pdf/1609.07197

6

SingleOP(Quantities)

  • 发布方:

    约翰霍普金斯大学·伊利诺伊大学厄巴纳香槟分校

  • 发布时间:

    2015-01-13

  • 简介:

    用于研究自然语言文本中数量使用的数据。

    如果约翰尼有五个苹果和七个橙子,他想与他的三个朋友分享它们,计算机能否理解文本并计算出每个人得到多少个水果?

    得益于伊利诺伊大学开发的新软件,机器现在可以学习理解用语言表达的数学推理,这可以极大地改进搜索引擎和数据访问,并促进数学教育。

  • 下载地址:

    https://cogcomp.seas.upenn.edu/page/publication_view/759

  • 论文地址:https://cogcomp.seas.upenn.edu/papers/RoyViRo15.pdf

7

ChemBench4K

8

SingleEQ

9

ProofWriter

  • 发布方:

    艾伦人工智能研究所

  • 发布时间:

    2020-06-03

  • 简介:

    这些数据集伴随着论文"ProofWriter:在自然语言上生成含义、证明和溯因陈述"。它们包含更新的 RuleTaker 风格的数据集,其中包含 50 万个问题、答案和基于自然语言规则库的证明,用于表明 Transformer 可以模拟对用语言表达的规则进行推理,包括证明生成。它包括使用封闭和开放世界语义的变体。证明包括中间结论。额外的注释提供数据来训练迭代的 ProofWriter 模型以及溯因推理来确定不确定的陈述。

  • 下载地址:

    https://allenai.org/data/proofwriter

  • 论文地址:

    https://arxiv.org/pdf/2012.13048.pdf

10

DMath (Diverse Math Word Problems)

温馨 小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

相关推荐
Python私教28 分钟前
model中能定义字段声明不存储到数据库吗
数据库·oracle
Francek Chen1 小时前
【大数据技术基础 | 实验十二】Hive实验:Hive分区
大数据·数据仓库·hive·hadoop·分布式
BestandW1shEs3 小时前
谈谈Mysql的常见基础问题
数据库·mysql
重生之Java开发工程师3 小时前
MySQL中的CAST类型转换函数
数据库·sql·mysql
教练、我想打篮球3 小时前
66 mysql 的 表自增长锁
数据库·mysql
Ljw...3 小时前
表的操作(MySQL)
数据库·mysql·表的操作
哥谭居民00013 小时前
MySQL的权限管理机制--授权表
数据库
wqq_9922502773 小时前
ssm旅游推荐系统的设计与开发
数据库·旅游
IT古董4 小时前
【机器学习】机器学习中用到的高等数学知识-8. 图论 (Graph Theory)
人工智能·机器学习·图论