中文大数据训练的数据集

在训练中文大模型时,选择合适的数据集至关重要。以下是一些常用于中文大数据训练的数据集:

1. 新闻数据集

新闻数据集通常涵盖广泛的领域,包括时事、财经、体育、科技等,具有实时性和高质量的特点。

  • SogouCA:搜狗公司提供的新闻数据集,包含从2008年到2012年的大量新闻文本。
  • THUCNews:清华大学提供的一个包含743,000篇中文新闻的语料库,分为14个类别,如体育、娱乐、家居等。

2. 社交媒体数据集

社交媒体数据集包含用户生成内容,语言富有多样性和口语化。

  • Weibo数据集:包含大量来自新浪微博的用户发布的短文本,涵盖各种话题和情感。
  • Douban评论数据集:包含来自豆瓣的用户评论,涵盖电影、书籍、音乐等。

3. 百科数据集

百科数据集通常是高质量的结构化文本,适合用于知识图谱和信息抽取任务。

  • Wikipedia中文数据集:维基百科的中文部分,包含大量高质量的结构化文本。可以使用WikiExtractor等工具提取。
  • Baike数据集:百度百科的中文数据,包含大量高质量的条目。

4. 问答与对话数据集

这些数据集包含大量的问答和对话,对自然语言理解和生成任务非常有用。

  • XNLI:跨语言自然语言推理数据集,包含中文在内的15种语言,可用于跨语言理解和翻译任务。
  • LCQMC:一个中文问句匹配数据集,由百度提供,包含近26万个问句对。

5. 中文维基语料

来自中文维基百科的语料,具有高质量和广泛的知识覆盖面。

  • WikiQA:一个面向问题回答任务的数据集,包含从维基百科中提取的问答对。

6. 公开语料库

各大科研机构和公司发布的公开语料库,广泛应用于学术研究和工业应用中。

  • 百度中文语音数据集:百度发布的中文语音数据集,可用于训练语音识别和自然语言处理模型。
  • THU OpenChineseCorpus:清华大学发布的一个包含多种文本数据的公开语料库。

7. 机器翻译数据集

这些数据集包含大规模的平行语料,对机器翻译模型的训练非常有帮助。

  • LDC Chinese-English Data:语言数据联盟(LDC)发布的中英双语平行语料,广泛应用于机器翻译研究。
  • WMT Translation Data:WMT竞赛提供的大规模中英翻译数据集。

8. 情感分析数据集

这些数据集包含标注了情感倾向的文本,适用于情感分析和情感分类任务。

  • ChnSentiCorp:一个由酒店评论、书评和其他评论组成的中文情感分析数据集。
  • Weibo情感分析数据集:来自新浪微博的用户评论,标注了情感倾向。

9. 法律和医疗数据集

这些领域的数据集有助于构建法律认知和医疗诊断等专业系统。

  • Chinese AI and Law Challenge Dataset:用于法律文本理解的公开数据集。
  • MedQA:一个包含医疗问答对的数据集,用于医疗对话系统的训练。

示例:从中文维基百科提取数据

以下是一个示例脚本,展示如何使用Python从中文维基百科提取语料:

python 复制代码
import requests
import json

def fetch_wikipedia_data():
    url = 'https://zh.wikipedia.org/w/api.php'
    params = {
        'action': 'query',
        'format': 'json',
        'list': 'random',
        'rnlimit': 10,
        'rnnamespace': 0
    }

    response = requests.get(url, params=params)
    data = response.json()

    for item in data['query']['random']:
        page_id = item['id']
        title = item['title']
        print(f'Fetching content for page: {title}')
        
        params = {
            'action': 'query',
            'format': 'json',
            'prop': 'extracts',
            'explaintext': True,
            'pageids': page_id
        }
        
        response = requests.get(url, params=params)
        page_data = response.json()
        content = page_data['query']['pages'][str(page_id)]['extract']
        print(f'Content: {content[:100]}...')

if __name__ == "__main__":
    fetch_wikipedia_data()

以下是一些常用的中文数据集及其获取地址:

1. SogouCA

描述:搜狗公司提供的新闻数据集,包括从2008年到2012年的大量新闻文本。

地址SogouCA

2. THUCNews

描述:清华大学提供的一个包含743,000篇中文新闻语料的库,分为14个类别,如体育、娱乐、家居等。

地址THUCNews

3. Weibo数据集

描述:包含大量来自新浪微博的用户发布的短文本,涵盖各种话题和情感。适用于情感分析等任务。

地址Weibo数据集 (2017年发布)

4. Douban评论数据集

描述:包含来自豆瓣的用户评论,涵盖电影、书籍、音乐等,适合用于情感分析和推荐系统研究。

地址Douban评论数据集

5. Wikipedia中文数据集

描述:维基百科的中文部分,包含大量高质量的结构化文本。可以使用WikiExtractor等工具提取。

地址Wikipedia Dumps

6. Baike数据集

描述:百度百科的中文数据,包含大量高质量的条目,适用于知识图谱和信息抽取任务。

地址:数据集自行获取方法详见百度百科开发者文档

7. XNLI

描述:跨语言自然语言推理数据集,包含中文在内的15种语言,可用于跨语言理解和翻译任务。

地址XNLI (Cognitive Computation Group)

8. LCQMC

描述:一个中文问句匹配数据集,由百度提供,包含近26万个问句对,适用于自然语言理解和问答系统研究。

地址LCQMC 数据集

9. THU OpenChineseCorpus

描述:清华大学发布的一个包含多种文本数据的公开语料库,适用于多种NLP任务。

地址THU OpenChineseCorpus

10. ChnSentiCorp

描述:一个由酒店评论、书评和其他评论组成的中文情感分析数据集。

地址ChnSentiCorp

11. MedQA

描述:一个包含医疗问答对的数据集,用于医疗对话系统的训练。

地址MedQA (DuQA公开数据)

12. LDC Chinese-English Data

描述:语言数据联盟(LDC)发布的中英双语平行语料,适用于机器翻译研究。

地址LDC 中文-英文学术平行语料 (需要订阅服务)

13. WMT Translation Data

描述:WMT竞赛提供的大规模中英翻译数据集。

地址WMT 竞赛数据集

示例:获取Wikipedia Dumps的数据

以下是从Wikipedia Dumps下载中文数据集的简单步骤:

  1. 访问Wikipedia Dumps的页面:Wikipedia Dumps
  2. 选择最新的dump日期文件夹,例如20230601/
  3. 下载其中的zhwiki-20230601-pages-articles-multistream.xml.bz2文件,这个文件包含了中文维基百科的所有页面。

总结

上述数据集涵盖了广泛的领域,包括新闻、社交媒体、评论、百科问答、机器翻译等。不同的数据集针对不同的NLP任务,可以根据需要选择适合的数据集进行模型训练。在选择适合的高质量数据集是训练中文大模型的关键。上述列举的资源涵盖了多个领域和应用场景,可以根据具体需求对数据进行二次处理和清洗,以提高训练效果。在获取和使用这些数据集时,也要注意遵守相关的数据使用政策和版权规定。

相关推荐
打码人的日常分享8 小时前
基于信创体系政务服务信息化建设方案(PPT)
大数据·服务器·人工智能·信息可视化·架构·政务
搞科研的小刘选手9 小时前
【EI稳定】检索第六届大数据经济与信息化管理国际学术会议(BDEIM 2025)
大数据·人工智能·经济
一水鉴天10 小时前
整体设计 全面梳理复盘 之39 生态工具链 到顶级表征及其完全公理化
大数据·人工智能·算法
草原印象11 小时前
全文检索ElasticSearch实战
大数据·elasticsearch·全文检索
Guheyunyi12 小时前
安防监控系统,如何为你的生活构筑智慧安全屏障?
大数据·人工智能·安全·信息可视化·生活
TDengine (老段)12 小时前
TDengine 字符串函数 Replace 用户手册
java·大数据·数据库·物联网·时序数据库·tdengine·涛思数据
武子康12 小时前
大数据-156 Apache Druid+Kafka 实时分析实战:JSON 拉平摄取与 SQL 指标全流程
大数据·后端·nosql
邮专薛之谦12 小时前
Git复习(查询版本)
大数据·elasticsearch·搜索引擎
悟能不能悟13 小时前
部署和测试 apereo/cas
大数据
小二·14 小时前
Git 高频操作命令大全(分类整理 + 修正说明)
大数据·git·elasticsearch