在训练中文大模型时,选择合适的数据集至关重要。以下是一些常用于中文大数据训练的数据集:
1. 新闻数据集
新闻数据集通常涵盖广泛的领域,包括时事、财经、体育、科技等,具有实时性和高质量的特点。
- SogouCA:搜狗公司提供的新闻数据集,包含从2008年到2012年的大量新闻文本。
- THUCNews:清华大学提供的一个包含743,000篇中文新闻的语料库,分为14个类别,如体育、娱乐、家居等。
2. 社交媒体数据集
社交媒体数据集包含用户生成内容,语言富有多样性和口语化。
- Weibo数据集:包含大量来自新浪微博的用户发布的短文本,涵盖各种话题和情感。
- Douban评论数据集:包含来自豆瓣的用户评论,涵盖电影、书籍、音乐等。
3. 百科数据集
百科数据集通常是高质量的结构化文本,适合用于知识图谱和信息抽取任务。
- Wikipedia中文数据集:维基百科的中文部分,包含大量高质量的结构化文本。可以使用WikiExtractor等工具提取。
- Baike数据集:百度百科的中文数据,包含大量高质量的条目。
4. 问答与对话数据集
这些数据集包含大量的问答和对话,对自然语言理解和生成任务非常有用。
- XNLI:跨语言自然语言推理数据集,包含中文在内的15种语言,可用于跨语言理解和翻译任务。
- LCQMC:一个中文问句匹配数据集,由百度提供,包含近26万个问句对。
5. 中文维基语料
来自中文维基百科的语料,具有高质量和广泛的知识覆盖面。
- WikiQA:一个面向问题回答任务的数据集,包含从维基百科中提取的问答对。
6. 公开语料库
各大科研机构和公司发布的公开语料库,广泛应用于学术研究和工业应用中。
- 百度中文语音数据集:百度发布的中文语音数据集,可用于训练语音识别和自然语言处理模型。
- THU OpenChineseCorpus:清华大学发布的一个包含多种文本数据的公开语料库。
7. 机器翻译数据集
这些数据集包含大规模的平行语料,对机器翻译模型的训练非常有帮助。
- LDC Chinese-English Data:语言数据联盟(LDC)发布的中英双语平行语料,广泛应用于机器翻译研究。
- WMT Translation Data:WMT竞赛提供的大规模中英翻译数据集。
8. 情感分析数据集
这些数据集包含标注了情感倾向的文本,适用于情感分析和情感分类任务。
- ChnSentiCorp:一个由酒店评论、书评和其他评论组成的中文情感分析数据集。
- Weibo情感分析数据集:来自新浪微博的用户评论,标注了情感倾向。
9. 法律和医疗数据集
这些领域的数据集有助于构建法律认知和医疗诊断等专业系统。
- Chinese AI and Law Challenge Dataset:用于法律文本理解的公开数据集。
- MedQA:一个包含医疗问答对的数据集,用于医疗对话系统的训练。
示例:从中文维基百科提取数据
以下是一个示例脚本,展示如何使用Python从中文维基百科提取语料:
python
import requests
import json
def fetch_wikipedia_data():
url = 'https://zh.wikipedia.org/w/api.php'
params = {
'action': 'query',
'format': 'json',
'list': 'random',
'rnlimit': 10,
'rnnamespace': 0
}
response = requests.get(url, params=params)
data = response.json()
for item in data['query']['random']:
page_id = item['id']
title = item['title']
print(f'Fetching content for page: {title}')
params = {
'action': 'query',
'format': 'json',
'prop': 'extracts',
'explaintext': True,
'pageids': page_id
}
response = requests.get(url, params=params)
page_data = response.json()
content = page_data['query']['pages'][str(page_id)]['extract']
print(f'Content: {content[:100]}...')
if __name__ == "__main__":
fetch_wikipedia_data()
以下是一些常用的中文数据集及其获取地址:
1. SogouCA
描述:搜狗公司提供的新闻数据集,包括从2008年到2012年的大量新闻文本。
地址 :SogouCA
2. THUCNews
描述:清华大学提供的一个包含743,000篇中文新闻语料的库,分为14个类别,如体育、娱乐、家居等。
地址 :THUCNews
3. Weibo数据集
描述:包含大量来自新浪微博的用户发布的短文本,涵盖各种话题和情感。适用于情感分析等任务。
4. Douban评论数据集
描述:包含来自豆瓣的用户评论,涵盖电影、书籍、音乐等,适合用于情感分析和推荐系统研究。
地址 :Douban评论数据集
5. Wikipedia中文数据集
描述:维基百科的中文部分,包含大量高质量的结构化文本。可以使用WikiExtractor等工具提取。
地址 :Wikipedia Dumps
6. Baike数据集
描述:百度百科的中文数据,包含大量高质量的条目,适用于知识图谱和信息抽取任务。
地址:数据集自行获取方法详见百度百科开发者文档
7. XNLI
描述:跨语言自然语言推理数据集,包含中文在内的15种语言,可用于跨语言理解和翻译任务。
地址 :XNLI (Cognitive Computation Group)
8. LCQMC
描述:一个中文问句匹配数据集,由百度提供,包含近26万个问句对,适用于自然语言理解和问答系统研究。
地址 :LCQMC 数据集
9. THU OpenChineseCorpus
描述:清华大学发布的一个包含多种文本数据的公开语料库,适用于多种NLP任务。
10. ChnSentiCorp
描述:一个由酒店评论、书评和其他评论组成的中文情感分析数据集。
地址 :ChnSentiCorp
11. MedQA
描述:一个包含医疗问答对的数据集,用于医疗对话系统的训练。
地址 :MedQA (DuQA公开数据)
12. LDC Chinese-English Data
描述:语言数据联盟(LDC)发布的中英双语平行语料,适用于机器翻译研究。
13. WMT Translation Data
描述:WMT竞赛提供的大规模中英翻译数据集。
地址 :WMT 竞赛数据集
示例:获取Wikipedia Dumps的数据
以下是从Wikipedia Dumps下载中文数据集的简单步骤:
- 访问Wikipedia Dumps的页面:Wikipedia Dumps
- 选择最新的dump日期文件夹,例如
20230601/
。 - 下载其中的
zhwiki-20230601-pages-articles-multistream.xml.bz2
文件,这个文件包含了中文维基百科的所有页面。
总结
上述数据集涵盖了广泛的领域,包括新闻、社交媒体、评论、百科问答、机器翻译等。不同的数据集针对不同的NLP任务,可以根据需要选择适合的数据集进行模型训练。在选择适合的高质量数据集是训练中文大模型的关键。上述列举的资源涵盖了多个领域和应用场景,可以根据具体需求对数据进行二次处理和清洗,以提高训练效果。在获取和使用这些数据集时,也要注意遵守相关的数据使用政策和版权规定。