LLM数据集汇总(不断更新)

文章目录

1、预训练

IndustryCorpus2 30类行业分类的高质量预训练数据集

https://www.modelscope.cn/datasets/BAAI/IndustryCorpus2

经过全流程处理后,各行业数据的磁盘大小如下

行业类别 数据大小 (GB) 行业类别 数据大小 (GB)
编程 11.0 新闻 51.0
生物医学 61.7 石油化工 40.2
医疗健康-心理学和中医 271.7 航空航天 38.6
旅游与地理 64.0 采矿 8.9
法律与司法 238.5 金融与经济 145.8
数学-统计 156.7 文学与情感 105.5
其他信息服务-信息安全 1.8 交通运输 40.5
消防安全-食品安全 4.3 科技-科学研究 101.6
汽车 39.3 水利-海洋 20.2
住宿-餐饮-酒店 29.6 计算机-通信 157.8
影视娱乐 209.4 学科教育 340.9
房地产-建筑 105.2 人工智能-机器学习 7.7
电力与能源 68.7 当前事务-政府事务-行政 271.5
农业、林业、畜牧业和渔业 111.9 体育 262.5
游戏 37.6 其他制造业 47.2
其他 188.6
总计 (GB) 3276G

2、微调

Infinity Instruct

北京智源人工智能研究院 (BAAI)
\*\*[论文**](https://arxiv.org/abs/2506.11116)代码🤗

指令数据的质量和规模对于模型性能至关重要。最近,开源模型越来越依赖包含数百万实例的微调数据集,这既需要高质量也需要大规模。然而,长期以来,高昂的成本限制了开源社区构建如此广泛且高质量的指令微调数据集的能力,从而限制了相关研究和应用。为了解决这一问题,我们推出了Infinity Instruct项目,旨在开发一个大规模、高质量的指令数据集。

新闻

复制代码
🔥🔥🔥[2025/12/04] 我们发布了Infinity Instruct主题的[论文](已被AAAI 2026接受)。

🔥🔥🔥[2025/05/13] 我们发布了7M基础数据集的核心版本,7M Core!它仅用1.4M条指令就达到了完整7M指令的95.7%性能。

🔥🔥🔥[2025/01/06] 我们基于自建的指令标注系统和奖励模型Skywork/Skywork-Reward-Llama-3.1-8B-v0.2补充了7M和Gen的指令标注类型和奖励分数。您可以根据这些信息构建定制化的指令数据集。

3、偏好数据

Infinity-Preference

人类的偏好因任务而异。因此,Infinity-Preference 试图根据(Infinity Instruct 的)能力标签系统在每个任务上调整偏好属性权重。此版本包含从 Infinity-Instruct 指令集中为每种任务类型均匀采样的 59438 条指令。每条指令都附带了一对从 Gemma-2-9B-IT 中采样的偏好对。该偏好对由特定于任务的偏好属性权重和 ArmoRM 标注。您也可以使用 Infinity-Preference 为更多模型生成在线策略数据。我们将很快发布构建特定任务权重的代码。

复制代码
🔥🔥🔥[2024/08/29] 我们发布了从Infinity-Instruct构建的第一个偏好数据版本,Infinity-Preference。在Infinity-Preference上微调的SimPO版本模型Gemma2-9B-IT-Simpo-Infinity-Preference也已公开。
相关推荐
前网易架构师-高司机2 天前
带标注的土豆马铃薯病叶数据集,识别6种病害和健康叶,识别率93.4%,3718张图,支持yolo,coco json,voc xml,文末有模型训练代码
yolo·数据集·病害·病叶·叶子·马铃薯·土豆
前网易架构师-高司机2 天前
带标注的番茄成熟颜色识别数据集,可识别红色,橙色,绿色,识别率80.6%,2517张图,支持yolo,coco json,voc xml,文末有模型训练代码
yolo·数据集·颜色·番茄·西红柿·成熟·红色
前网易架构师-高司机4 天前
带标注的薄荷病叶数据集,识别率98.8%,3533张图,支持yolo,coco json,voc xml,文末有模型训练代码
yolo·数据集·缺陷·薄荷·叶子·风干·变质
前网易架构师-高司机9 天前
带标注的西瓜病叶分类识别数据集,可识别花叶病,霜霉病和健康叶子, 922张图,支持yolo,coco json,voc xml,文末有模型训练代码
数据集·病害·叶病·病叶·西瓜·花叶病·霜霉病
深度学习lover10 天前
<数据集>yolo安全手套佩戴识别<目标检测>
人工智能·yolo·目标检测·数据集·安全手套佩戴识别
深度学习lover10 天前
<数据集>yolo航拍视角垃圾识别<目标检测>
人工智能·深度学习·yolo·目标检测·数据集·航拍视角垃圾识别
深度学习lover11 天前
<数据集>yolo月球陨石坑识别<目标检测>
人工智能·yolo·目标检测·计算机视觉·数据集·月球陨石坑识别
西贝爱学习11 天前
旅游推荐数据集.csv
python·数据集·旅游
深度学习lover11 天前
<数据集>yolo樱桃识别<目标检测>
人工智能·深度学习·yolo·目标检测·计算机视觉·数据集·樱桃识别
王哈哈^_^11 天前
【源码教程+数据集】农作物分类检测数据集 10712 张,农作物分类检测系统实战教程
人工智能·算法·yolo·目标检测·计算机视觉·毕业设计·数据集