大语言模型训练数据集(1)

CLUECorpusSmall

CLUECorpusSmall包含新闻、社区互动、维基百科、评论语料。原始数据和细节描述在这里

语料 链接

CLUECorpusSmall---- https://share.weiyun.com/sC6PMhxx

CLUECorpusSmall (BERT格式)---- https://share.weiyun.com/9SPPGUOK

News Commentary v13 (ZH-EN)

News Commentary v13包括平行语料。原始数据和细节描述在这里

语料 链接

news-Commentary-v13-en-zh---- https://share.weiyun.com/PLMxw6ae

news-Commentary-v13-zh-en---- https://share.weiyun.com/5rMwRhDi

news-Commentary-v13-en-zh_sampled---- https://share.weiyun.com/1KTxq3Dc

CIFAR100_nolabel

CIFAR100_nolabel 包括50000张没有标注的图片,可以用作无监督的预训练。原始数据在这里

语料 链接

CIFAR100_nolabel---- https://share.weiyun.com/M2tA9P8p

相关推荐
min1811234565 小时前
深度伪造内容的检测与溯源技术
大数据·网络·人工智能
_codemonster5 小时前
高斯卷积的可加性定理
人工智能·计算机视觉
数据智研5 小时前
【数据分享】(2005–2016年)基于水资源承载力的华北地区降水与地下水要素数据
大数据·人工智能·信息可视化·数据分析
likuolei5 小时前
Spring AI框架完整指南
人工智能·python·spring
梵得儿SHI5 小时前
(第四篇)Spring AI 核心技术攻坚:多轮对话与记忆机制,打造有上下文的 AI
java·人工智能·spring·springai生态·上下文丢失问题·三类记忆·智能客服实战案
二哈喇子!6 小时前
PyTorch生态与昇腾平台适配:环境搭建与详细安装指南
人工智能·pytorch·python
lingzhilab6 小时前
零知ESP32-S3 部署AI小智 2.1,继电器和音量控制以及页面展示音量
人工智能
两万五千个小时6 小时前
AI Agent 框架演进
人工智能
li星野6 小时前
OpenCV4X学习—核心模块Core
人工智能·opencv·学习
刘立军6 小时前
如何选择FAISS的索引类型
人工智能·算法·架构