大语言模型训练数据集(1)

CLUECorpusSmall

CLUECorpusSmall包含新闻、社区互动、维基百科、评论语料。原始数据和细节描述在这里

语料 链接

CLUECorpusSmall---- https://share.weiyun.com/sC6PMhxx

CLUECorpusSmall (BERT格式)---- https://share.weiyun.com/9SPPGUOK

News Commentary v13 (ZH-EN)

News Commentary v13包括平行语料。原始数据和细节描述在这里

语料 链接

news-Commentary-v13-en-zh---- https://share.weiyun.com/PLMxw6ae

news-Commentary-v13-zh-en---- https://share.weiyun.com/5rMwRhDi

news-Commentary-v13-en-zh_sampled---- https://share.weiyun.com/1KTxq3Dc

CIFAR100_nolabel

CIFAR100_nolabel 包括50000张没有标注的图片,可以用作无监督的预训练。原始数据在这里

语料 链接

CIFAR100_nolabel---- https://share.weiyun.com/M2tA9P8p

相关推荐
十有久诚7 分钟前
E2VPT: An Effective and Efficient Approach for Visual Prompt Tuning
人工智能·深度学习·提示学习·视觉语言模型
卓_尔_不_凡29 分钟前
Pytorch学习---基于经典网络架构ResNet训练花卉图像分类模型
人工智能·分类·数据挖掘
神奇夜光杯38 分钟前
Python酷库之旅-第三方库Pandas(123)
开发语言·人工智能·python·excel·pandas·标准库及第三方库·学习与成长
SEU-WYL42 分钟前
基于神经网络的光线追踪
人工智能·神经网络·计算机视觉
Bill6644 分钟前
OpenCV GUI常用函数详解
人工智能·opencv·计算机视觉
DisonTangor44 分钟前
OpenAI面向开发者继续提高o1系列模型的调用速率 最高每分钟可调用1000次
人工智能
zhangbin_2371 小时前
【Python机器学习】NLP信息提取——提取人物/事物关系
开发语言·人工智能·python·机器学习·自然语言处理
王豫翔1 小时前
OpenAl o1论文:Let’s Verify Step by Step 快速解读
人工智能·深度学习·机器学习·chatgpt
xuehaikj1 小时前
婴儿接触危险物品检测系统源码分享
人工智能·计算机视觉·目标跟踪
用户572449561561 小时前
51CTO-2024全新Langchain大模型AI应用与多智能体实战开发
人工智能