大语言模型训练数据集(1)

CLUECorpusSmall

CLUECorpusSmall包含新闻、社区互动、维基百科、评论语料。原始数据和细节描述在这里

语料 链接

CLUECorpusSmall---- https://share.weiyun.com/sC6PMhxx

CLUECorpusSmall (BERT格式)---- https://share.weiyun.com/9SPPGUOK

News Commentary v13 (ZH-EN)

News Commentary v13包括平行语料。原始数据和细节描述在这里

语料 链接

news-Commentary-v13-en-zh---- https://share.weiyun.com/PLMxw6ae

news-Commentary-v13-zh-en---- https://share.weiyun.com/5rMwRhDi

news-Commentary-v13-en-zh_sampled---- https://share.weiyun.com/1KTxq3Dc

CIFAR100_nolabel

CIFAR100_nolabel 包括50000张没有标注的图片,可以用作无监督的预训练。原始数据在这里

语料 链接

CIFAR100_nolabel---- https://share.weiyun.com/M2tA9P8p

相关推荐
前端小张同学11 分钟前
有了AI大家的日常是轻松了还是更焦虑了呢?
人工智能·程序员·ai编程
快手技术14 分钟前
KAT-Coder-Pro V2:玩转龙虾,吃透美学
人工智能
新缸中之脑37 分钟前
AI工程师成长路线图 (2026)
人工智能
商业数据派38 分钟前
快手估值重构的“隐藏彩蛋”
大数据·人工智能·重构
新缸中之脑41 分钟前
你的智能体技术栈中缺失的层
大数据·人工智能·数据挖掘
呆呆敲代码的小Y1 小时前
UnityMCP+Claude+VSCode,构建最强AI游戏开发环境
人工智能·vscode·游戏·unity·游戏引擎·u3d·mcp
balmtv1 小时前
Claude 3.5镜像深度推理实战:用AI破解复杂逻辑谜题与数学证明
人工智能
BPM6661 小时前
2026 AI流程管理软件选型:从BPM到iBPM,如何构建可分析、可优化、可执行的流程平台
人工智能
wggmrlee1 小时前
AI技术架构全局视角
人工智能·架构
peachSoda72 小时前
前端想转AI全栈-初步练习记录
前端·人工智能