LLM数据集汇总(不断更新)

文章目录

1、预训练

IndustryCorpus2 30类行业分类的高质量预训练数据集

https://www.modelscope.cn/datasets/BAAI/IndustryCorpus2

经过全流程处理后,各行业数据的磁盘大小如下

行业类别 数据大小 (GB) 行业类别 数据大小 (GB)
编程 11.0 新闻 51.0
生物医学 61.7 石油化工 40.2
医疗健康-心理学和中医 271.7 航空航天 38.6
旅游与地理 64.0 采矿 8.9
法律与司法 238.5 金融与经济 145.8
数学-统计 156.7 文学与情感 105.5
其他信息服务-信息安全 1.8 交通运输 40.5
消防安全-食品安全 4.3 科技-科学研究 101.6
汽车 39.3 水利-海洋 20.2
住宿-餐饮-酒店 29.6 计算机-通信 157.8
影视娱乐 209.4 学科教育 340.9
房地产-建筑 105.2 人工智能-机器学习 7.7
电力与能源 68.7 当前事务-政府事务-行政 271.5
农业、林业、畜牧业和渔业 111.9 体育 262.5
游戏 37.6 其他制造业 47.2
其他 188.6
总计 (GB) 3276G

2、微调

Infinity Instruct

北京智源人工智能研究院 (BAAI)
[**论文]**[代码][🤗]

指令数据的质量和规模对于模型性能至关重要。最近,开源模型越来越依赖包含数百万实例的微调数据集,这既需要高质量也需要大规模。然而,长期以来,高昂的成本限制了开源社区构建如此广泛且高质量的指令微调数据集的能力,从而限制了相关研究和应用。为了解决这一问题,我们推出了Infinity Instruct项目,旨在开发一个大规模、高质量的指令数据集。

新闻

复制代码
🔥🔥🔥[2025/12/04] 我们发布了Infinity Instruct主题的[论文](已被AAAI 2026接受)。

🔥🔥🔥[2025/05/13] 我们发布了7M基础数据集的核心版本,7M Core!它仅用1.4M条指令就达到了完整7M指令的95.7%性能。

🔥🔥🔥[2025/01/06] 我们基于自建的指令标注系统和奖励模型Skywork/Skywork-Reward-Llama-3.1-8B-v0.2补充了7M和Gen的指令标注类型和奖励分数。您可以根据这些信息构建定制化的指令数据集。

3、偏好数据

Infinity-Preference

人类的偏好因任务而异。因此,Infinity-Preference 试图根据(Infinity Instruct 的)能力标签系统在每个任务上调整偏好属性权重。此版本包含从 Infinity-Instruct 指令集中为每种任务类型均匀采样的 59438 条指令。每条指令都附带了一对从 Gemma-2-9B-IT 中采样的偏好对。该偏好对由特定于任务的偏好属性权重和 ArmoRM 标注。您也可以使用 Infinity-Preference 为更多模型生成在线策略数据。我们将很快发布构建特定任务权重的代码。

复制代码
🔥🔥🔥[2024/08/29] 我们发布了从Infinity-Instruct构建的第一个偏好数据版本,Infinity-Preference。在Infinity-Preference上微调的SimPO版本模型Gemma2-9B-IT-Simpo-Infinity-Preference也已公开。
相关推荐
深度学习lover1 天前
<数据集>yolo汉字识别<目标检测>
人工智能·yolo·目标检测·数据集·汉字识别
前网易架构师-高司机3 天前
带标注的轴承划痕检测数据集,识别率83.0%,1180张图,支持yolo,coco json,voc xml,文末有模型训练代码
yolo·数据集·缺陷·轴承·划痕·划伤
前网易架构师-高司机4 天前
带标注的螺丝、螺栓、垫圈缺陷识别数据集,包含缺陷里包含生锈和划痕,1291张图,支持yolo,coco json,voc xml,文末有模型训练代码。
yolo·数据集·缺陷·螺栓·螺丝·垫圈·
深度学习lover6 天前
<数据集>yolo 白天鹅识别<目标检测>
人工智能·yolo·目标检测·数据集·白天鹅识别
前网易架构师-高司机7 天前
带标注的肾结石识别数据集,识别率88.8%,9708张图,支持yolo,coco json,voc xml,文末有模型训练代码
数据集·模型·医学影像·彩超··结石
前网易架构师-高司机10 天前
带标注的孕期彩超数据集,识别率99.5%,识别是否怀孕妊娠,1114张图,支持yolo,coco json,voc xml,文末有模型训练代码
yolo·数据集·医学影像·彩超··怀孕·妊娠
howard200510 天前
4.1 Spark SQL数据帧与数据集
数据集·spark sql·数据帧
极智视界10 天前
无人机场景 - 图像分割数据集 - 无人机视角场景图像分割数据集下载
数据集·图像分割·无人机视角·算法训练·低空经济·yolo格式·无人机场景
前网易架构师-高司机12 天前
带标注的中国车牌分类数据集,可区分车牌是否新能源电车绿牌,识别率99.5%,1223张图,支持yolo,coco json,voc xml,文末有模型训练代码
分类·数据集·新能源·车牌·电车·绿牌·蓝牌