机器学习数据集

数据猎手小k1 天前
机器学习·支持向量机·数据集·聚类·机器学习数据集·ai大模型应用
PCBS:由麻省理工学院和Google联合创建,揭示1.2M短文本间的相似性的大规模图聚类数据集。2024-11-15,由麻省理工学院和Google联合创建的ParClusterers Benchmark Suite (PCBS)数据集,为图聚类算法的评估带来了革命性的意义。这个数据集不仅规模宏大,包含1.2M短文本,而且通过精确的50-最近邻图构建,为聚类算法提供了一个真实且具有挑战性的测试平台,从而推动了图聚类技术的发展和优化。
数据猎手小k5 天前
人工智能·深度学习·语言模型·数据集·机器学习数据集·ai大模型应用
DAHL:利用由跨越 29 个类别的 8,573 个问题组成的基准数据集,评估大型语言模型在生物医学领域长篇回答的事实准确性。2024-11-14,由首尔国立大学创建的DAHL数据集,为评估大型语言模型(LLMs)在生物医学领域长文本生成中的幻觉问题提供了一个重要的工具,这对于提高模型的准确性和可靠性具有重要意义。
数据猎手小k12 天前
数据集·机器学习数据集·ai大模型应用
CulturalBench :一个旨在评估大型语言模型在全球不同文化背景下知识掌握情况的基准测试数据集2024-10-04,为了提升大型语言模型在不同文化背景下的实用性,华盛顿大学、艾伦人工智能研究所等机构联合创建了CulturalBench。这个数据集包含1,227个由人类编写和验证的问题,覆盖了包括被边缘化地区在内的45个全球区域。CulturalBench的推出,目的通过一个稳健、多样化且具有挑战性的基准测试,衡量并跟踪我们在提升LLMs文化知识方面的进步。
数据猎手小k13 天前
数据集·机器学习数据集·ai大模型应用
GS-Blur数据集:首个基于3D场景合成的156,209对多样化真实感模糊图像数据集。2024-10-31,由韩国首尔国立大学的研究团队创建的GS-Blur数据集,通过3D场景重建和相机视角移动合成了多样化的真实感模糊图像,为图像去模糊领域提供了一个大规模、高覆盖度的新工具,显著提升了去模糊算法在真实世界场景中的泛化能力。