大语言模型训练数据集(1)

CLUECorpusSmall

CLUECorpusSmall包含新闻、社区互动、维基百科、评论语料。原始数据和细节描述在这里

语料 链接

CLUECorpusSmall---- https://share.weiyun.com/sC6PMhxx

CLUECorpusSmall (BERT格式)---- https://share.weiyun.com/9SPPGUOK

News Commentary v13 (ZH-EN)

News Commentary v13包括平行语料。原始数据和细节描述在这里

语料 链接

news-Commentary-v13-en-zh---- https://share.weiyun.com/PLMxw6ae

news-Commentary-v13-zh-en---- https://share.weiyun.com/5rMwRhDi

news-Commentary-v13-en-zh_sampled---- https://share.weiyun.com/1KTxq3Dc

CIFAR100_nolabel

CIFAR100_nolabel 包括50000张没有标注的图片,可以用作无监督的预训练。原始数据在这里

语料 链接

CIFAR100_nolabel---- https://share.weiyun.com/M2tA9P8p

相关推荐
掘金一周几秒前
Figma Dev Mode MCP:大人,时代变了 | 掘金一周7.10
前端·人工智能·mcp
大千AI助手4 分钟前
陶哲轩:数学界的莫扎特与跨界探索者
人工智能·数学·机器学习·概率·人物·天才·陶哲轩
通街市密人有16 分钟前
PanTS: The Pancreatic Tumor Segmentation Dataset
人工智能·深度学习·计算机视觉
高工智能汽车32 分钟前
出圈or出局?AI汽车“急速驶来”,市场淘汰赛一触即发
人工智能·汽车
Qdgr_34 分钟前
传统报警难题频现,安全运行隐患重重
大数据·人工智能·安全
rit843249939 分钟前
MATLAB基于voronoi生成三维圆柱形
开发语言·人工智能·matlab
xuedaobian1 小时前
AI IDE里的 context 工程
人工智能·aigc·visual studio code
PyAIExplorer1 小时前
图像处理中的霍夫变换:直线检测与圆检测
图像处理·人工智能
格林威2 小时前
Baumer工业相机堡盟工业相机如何通过DeepOCR模型识别判断数值和字符串的范围和相似度(C#)
开发语言·人工智能·python·数码相机·计算机视觉·c#·视觉检测
不爱学英文的码字机器2 小时前
Claude Code: Best practices for agentic coding
人工智能