大语言模型训练数据集(1)

CLUECorpusSmall

CLUECorpusSmall包含新闻、社区互动、维基百科、评论语料。原始数据和细节描述在这里

语料 链接

CLUECorpusSmall---- https://share.weiyun.com/sC6PMhxx

CLUECorpusSmall (BERT格式)---- https://share.weiyun.com/9SPPGUOK

News Commentary v13 (ZH-EN)

News Commentary v13包括平行语料。原始数据和细节描述在这里

语料 链接

news-Commentary-v13-en-zh---- https://share.weiyun.com/PLMxw6ae

news-Commentary-v13-zh-en---- https://share.weiyun.com/5rMwRhDi

news-Commentary-v13-en-zh_sampled---- https://share.weiyun.com/1KTxq3Dc

CIFAR100_nolabel

CIFAR100_nolabel 包括50000张没有标注的图片,可以用作无监督的预训练。原始数据在这里

语料 链接

CIFAR100_nolabel---- https://share.weiyun.com/M2tA9P8p

相关推荐
过河卒_zh156676620 分钟前
9.12AI简报丨腾讯投资AI游戏平台,B站开源AniSora V3
人工智能·算法·游戏·aigc·算法备案·生成合成类算法备案
补三补四27 分钟前
神经网络基本概念
人工智能·深度学习·神经网络
IT_陈寒30 分钟前
Spring Boot 3.2 新特性全解析:这5个性能优化点让你的应用提速50%!
前端·人工智能·后端
VR最前沿1 小时前
Xsens运动捕捉技术彻底改变了数字化运动方式,摆脱实验室局限,将生物力学引入现实
人工智能·科技
网易伏羲1 小时前
网易伏羲亮相Arm Unlocked 2025,携手Arm探索中国人工智能创新之路
人工智能·游戏ai·网易伏羲
寒月霜华2 小时前
机器学习ML-简介、数据获取、网页数据抓取
人工智能·机器学习
程序猿阿伟2 小时前
《AI游戏开发中的隐性困境:从战斗策略失效到音效错位的深度破局》
人工智能
gooxi_hui2 小时前
8卡直连,Turin加持!国鑫8U8卡服务器让生成式AI落地更近一步
大数据·人工智能
范男2 小时前
YOLO11目标检测运行推理简约GUI界面
图像处理·人工智能·yolo·计算机视觉·视觉检测
搜搜秀2 小时前
内存传输速率MT/s
人工智能·自然语言处理·机器翻译