简介
THUCNews数据集是清华大学自然语言处理与社会人文计算实验室根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。
在原始新浪新闻分类体系的基础上,划分出14个候选分类类别:
财经
彩票
房产
股票
家居
教育
科技
社会
时尚
时政
体育
星座
游戏
娱乐
原始数据集下载地址:http://thuctc.thunlp.org/
子集
10个类别:https://pan.baidu.com/s/1WFZumra9gPgcoO9BopvoUA 提取码:1111
14个类别:https://pan.baidu.com/s/1HDO95C_08xAwEdgRPISQBw 提取码:1111
扩展:
某up主基于此数据集实现分类:https://cloud.tencent.com/developer/article/1356797
百度竞指定赛数据集:https://aistudio.baidu.com/projectdetail/2203706?channelType=0\&channel=0
bert模型:https://github.com/pengwei-iie/Bert-THUCNews
机器学习:https://sthsf.github.io/wiki/study/NLPPro/数据集探索.html
多模型在该数据集上做对比实验:https://pypi.org/project/pytextclassifier/
kaggle:https://www.kaggle.com/code/cliheng/notebook1cd8a9ed4c